📰 正文

PiT(Piece-it-Together)是一种基于视觉零件的图像生成框架,可以从**几个输入图像的“部分”**自动生成出一个完整、连贯、符合语义和风格的新图像。

通俗来说:

假如你给它一张翅膀、一撮头发、一只眼睛,它就能“脑补”并生成一个完整的角色图像,像是一个设计师自动把灵感“拼”成一幅完整作品。

就像一个艺术家拿到几张参考图,就能自己“拼”出一整套设计。

它的特别之处是: 1.

不靠文字提示,而是直接用图片碎片做输入。

它训练了一个模型,让这些图片碎片“有意义地拼起来”,生成一个完整又合理的新图像。

还能控制风格,比如让角色“变可爱”或“变肌肉男”。

即使你输入的是简单草图,它也能理解意思生成图像。

image

PiT 解决了什么问题?

🔒 传统方法的局限: 1.

依赖文字提示(prompt):无法精准描述复杂视觉设计;

图像组合困难:多图输入往往会互相“混合”而非合理组合;

缺乏补完能力:如果只有部分视觉组件,模型无法生成完整概念;

难以表达创意:设计师常以视觉为主,语言难以表达复杂创意。

✅ PiT 解决的关键问题:

从图像部件出发生成完整图像

自动补全缺失的部分,保持风格一致

让用户摆脱语言限制,用视觉思维创作

对不同领域(人物、玩具、产品)均可适配

PiT 的主要功能

image

🔹 1. 视觉部件拼接生成(Part-Based Generation)

✅ 说明:

用户输入几个图像部件(如翅膀、头发、鞋子),模型将其整合为一个连贯完整的图像概念。

🔧 背后原理:

每个图像部件编码为 IP+ 表示;

IP-Prior 将这些表示融合,补全缺失部分;

通过 SDXL 渲染生成最终图像。

image

image

image

🧑‍🎨 应用:

角色设计:输入发型+鞋子 → 自动生成完整角色;

玩具设定:输入耳朵+衣服 → 自动生成玩偶设计。


🔹 2. 自动补全缺失部分(Plausible Completion)

✅ 说明:

即使输入不完整,模型也能自动推断并补全缺失的视觉元素。

image

🧠 模型能力:

训练阶段仅使用图像局部 → 预测整体;

具备强大的“上下文感知”能力。

📌 场景:

输入仅一个部件(如翅膀);

模型自动补完头、身体、四肢等。


🔹 3. 多样性生成(Diverse Sampling)

✅ 说明:

相同输入,可以通过随机种子(seed)生成多个不同风格或结构的图像。

image

🎨 创意辅助:

支持“灵感发散”;

帮助设计师看到多种可能性,再手动挑选/微调。


🔹 4. 跨领域语义理解(Domain-Aware Interpretation)

✅ 说明:

PiT 能够根据训练的“领域”模型(Prior)自动适配语义。

image

例如:

输入“香蕉皮”:

在“人物肖像”领域 → 变成“嘴唇”

在“鸭子”领域 → 变成“翅膀”

🔧 原因:

每个 IP-Prior 训练在不同的数据域中,具有不同的视觉先验。


🔹 5. 语义编辑(Semantic Manipulation)

✅ 说明:

可以实现“可爱 → 恐怖”、“瘦 → 肌肉”等方向性变化。

image

📐 实现方式:

采样一组“可爱”样本 + 一组“恐怖”样本;

计算嵌入空间方向;

应用于目标图像,即可实现语义迁移。

🎯 优势:

无需再训练;

低成本编辑视觉风格。


🔹 6. 背景场景生成(Text-to-Scene Rendering)

✅ 说明:

结合文本提示生成指定背景场景,例如:

“在雪地中”,“在保龄球馆”,“在外太空”

🔧 技术支撑:

使用 IP-LoRA 恢复 IP-Adapter+ 的文本理解能力;

小样本训练(仅需50个prompt)即可泛化。


🔹 7. 风格定制生成(Style Sheet Generation)

✅ 说明:

可以生成角色设定图/风格参考图,如:

多角度展示同一角色;

线稿 + 实拍风格混合呈现。

image

image

🖼️ 实例:

输入一个角色正面图 → 输出含多角度设定的参考图。

image


🔹 8. 草图条件生成(Sketch Conditioning)

✅ 说明:

image

用户只需画一个简单线稿/轮廓,PiT 即可理解并生成精美图像。

🧑‍🎨 实用性:

设计初期阶段无需精细图;

草图可代替部件图,用于快速创意构建。


🔹 9. 视觉风格参考(Style Prompting)

✅ 说明:

输入一组风格图(以网格排列),指定生成图的外观特征,如配色、质感。

image

image

image

🔧 原理:

将 style grid 也编码进 IP+ 空间 → 融合入最终概念生成。

技术方法详解

PiT 的整体流程分为四大模块:

image


🔹1. 表示空间选择:IP+ Space

❓问题:

传统使用的 CLIP embedding 表示不保留细节、容易丢失语义。

✅ PiT 选择:

使用 IP-Adapter+ 的内部中间表示空间,称为 IP+ Space,具有以下优势:

更丰富的语义表示;

更强的重建能力;

可以进行语义方向的操作(如"可爱 → 恐怖");

表达能力比 CLIP 更强,不仅适合组合,还适合补完。


🔹2. IP-Prior:在 IP+ 空间中生成完整图像概念

这是 PiT 的核心生成模块。

输入:

一组 IP+ 向量(图像部件)

输出:

一个完整的 IP+ 表示向量,用于生成图像

模型结构:

使用 4-block Diffusion Transformer(DiT) 架构;

使用 Rectified Flow 方法训练,更高效、轻量;

从零开始训练,没有依赖预训练模型;

支持条件和无条件生成,使得模型具备上下文感知能力。


🔹3. 数据生成策略(自动生成训练数据)

PiT 的训练数据并非手动标注,而是通过自动方式生成:

使用 Flux-Schnell 文生图模型生成目标领域图像(如人物、玩具);

使用 SAM(Segment Anything Model) 提取语义部分(如眼睛、翅膀);

每个训练样本只保留部分区域,模型必须学习补全缺失信息。

优点:

避免过拟合;

能处理各种结构、语义组合;

更高的数据效率,适合多个领域。


🔹4. IP-LoRA:增强文本提示控制能力

问题: IP-Adapter+ 在响应文本提示(如“在雪地里”)时失效。

image

解决方案:

引入一个轻量级的 LoRA(Low-Rank Adaptation) 模块;

微调策略:

输入图像为“干净背景”的角色;

输出图像为“添加背景的目标场景”;

用文本描述这个新背景;

仅使用 50 个背景文本 + 图像对,即可泛化到新提示。

优点:

保留原始视觉风格;

高效恢复文本控制;

支持风格定制(如参考图页、设定图生成)。

更多案例:

image

image

image

image

image

image

项目地址:https://eladrich.github.io/PiT/

GitHub:http://github.com/eladrich/PiT

论文:https://arxiv.org/pdf/2503.10365


来源:PiT:基于视觉零件的图像生成框架 随机输入几个图像 它能自动帮你脑补并生成一个完整的图像