TryOffDiff ：“虚拟脱衣” 从照片中“摘取”衣服，把它变成标准化的服装图片

📰 正文

TryOffDiff“虚拟脱衣”，从单张穿衣照片中生成标准化的服装图片。也就是让模型从一张照片中提取服装，生成一张像商品目录那样干净、标准化的衣服图片。

通俗来讲就是用于从照片中“摘取”衣服，把它变成标准化的服装图片（比如电商网站上那种白底展示图）。这和我们常见的虚拟试衣不同，虚拟试衣是把衣服穿到人身上，而这个方法是把衣服从照片里“脱下来”，并保留衣服的形状、颜色、纹理和细节。

比如你拍了一张穿着衣服的照片，这个方法能自动生成一张只有衣服的图片，干净背景，展示衣服细节。

TryOffDiff 的主要功能

生成标准化的服装图片

输入：一张穿着衣服的人的照片。

输出：去掉背景和人体的衣服图片，干净整洁，比如展示服装材质和细节的标准商品图。

高保真服装重建

能精确保留衣服的细节，比如图案、褶皱、徽标等，即使这些细节部分在原图中被遮挡，也可以很好地推断出来。

简化图像生成流程

无需复杂的预处理和后期处理，直接生成高质量图片，比传统方法更高效。

适配多样化的输入

能够应对不同背景、光照和姿势的照片，生成一致的服装图片。

可应用于虚拟试衣

可以作为虚拟试衣模型的辅助工具，通过先提取服装图片再用于其他试衣任务，实现更复杂的人与人试衣效果。

TryOffDiff 的独特之处

精度高：相比其他技术，TryOffDiff 能更好地还原衣服的材质、细节，甚至补全被遮挡部分。

快速高效：只需很少的输入数据，减少了对额外信息（如衣服分割或姿势点）的依赖。

易集成：它的生成结果可以直接用于电商图片制作、虚拟试衣等场景，无需复杂的调整。

TryOffDiff 的技术方法

TryOffDiff 的核心技术基于扩散模型（Diffusion Models），并结合了 Stable Diffusion 和 SigLIP 图像特征提取技术，对服装图像生成进行了专门优化。

以下是其技术方法的详细解析：

基础模型框架

(1) 扩散模型（Diffusion Models）

扩散模型的原理：

通过模拟图像从随机噪声逐渐“去噪”的过程，逐步生成高质量图片。

扩散过程学会如何从噪声中还原真实的目标图片，生成图像具有较高保真度。

TryOffDiff 的优化点：

使用 Stable Diffusion 的预训练模型作为基础框架，但将输入从文本引导（text-based prompts）改为图像引导（image-guided conditioning）。

(2) 条件控制生成（Conditional Generation）

TryOffDiff 不依赖文本描述，而是通过图像中的特征（如衣服的纹理、图案）作为条件引导生成目标图像。

将图像特征嵌入到扩散模型的去噪过程，确保生成的图片与输入参考图像一致。

特征提取与条件编码

(1) SigLIP 图像特征提取

SigLIP 的作用：

从输入图像中提取服装的关键特征，包括形状、颜色、纹理等。

相比传统方法，SigLIP 在捕捉细节和复杂纹理方面表现更好。

改进细节：

提取的特征序列保留了空间信息（Spatial Information），有助于生成模型更准确地重建复杂细节，如徽标和图案。

(2) 适配模块（Adapter Modules）

适配模块将 SigLIP 提取的特征转换为适合扩散模型的输入格式，主要包括：

Transformer 编码器：处理高维特征序列。

线性投影（Linear Projection）和层归一化（Layer Normalization）：简化和优化特征表示。

生成过程

(1) 特征嵌入

将适配后的特征嵌入到扩散模型的交叉注意力模块（Cross-Attention Layers）中：

注意力机制确保生成过程能够根据输入图像特征准确定位服装的形状和细节。

在每一层的去噪步骤中，将图像特征用作生成条件，引导生成模型逐步“还原”服装。

(2) 部分冻结训练

冻结模块：

保留预训练的 Stable Diffusion 和 SigLIP 编码器，不对其进行修改，减少训练成本。

微调模块：

对扩散模型的去噪 U-Net 和适配模块进行专门训练，以适应服装生成任务的需求。

(3) 损失函数

均方误差（MSE）损失：

衡量生成图像与真实目标图像的像素级差异。

通过逐步减少噪声的方式，指导模型学习如何从参考图像中生成高质量的服装图像。

性能优化

(1) 数据预处理

输入图像的标准化：

将参考图像裁剪为正方形，并调整分辨率（512×512），适配模型的输入需求。

使用干净背景的服装图像作为目标输出，方便模型学习生成标准化的服装图片。

(2) 训练配置

多GPU并行训练：

在 4 张 NVIDIA A40 GPU 上训练 220,000 次迭代，总耗时约 9 天。

优化器：

使用 AdamW 优化器，结合学习率预热和余弦衰减策略，提升训练效率。

(3) 推理过程

在推理阶段使用 PNDM 调度器，仅需 50 步即可完成生成（相比训练中的 1000 步大幅减少），单张图像生成时间约为 12 秒。

评价指标与模型改进

(1) 评价指标

传统指标的局限：

如 SSIM（结构相似性指标）对人类视觉不敏感，不能很好反映生成图像的真实质量。

新指标：DISTS：

同时考虑图像的结构和纹理相似性，更符合人类的视觉感知。

使用了预训练的 VGG 模型作为特征提取器，显著提升对视觉质量的评估能力。

(2) 改进方法

通过多次试验，优化了模型的超参数，如去噪步骤数和指导尺度（Guidance Scale），在细节保留和生成速度之间取得平衡。

总结

TryOffDiff 的核心技术是通过扩散模型和图像条件控制，将输入图像中的服装高精度地还原为标准化商品图。其技术亮点在于： 1.

使用 SigLIP 提取复杂的服装细节。

将特征嵌入扩散模型的去噪过程，确保生成质量。

通过先进的训练与评价策略，优化生成效果，使其适用于电商、虚拟试衣等实际应用场景。

实验结果

比其他方法更好：在各种数据集上的表现都优于现有的技术，尤其在细节保留和服装形状还原方面。

细节到位：比如能精确还原衣服上的徽标、图案，甚至是一些微小的装饰细节。

实际应用潜力大：用这种方法可以快速生成高质量的商品图片，无需专业拍摄或繁琐编辑。

项目地址：https://rizavelioglu.github.io/tryoffdiff/

技术报告：https://arxiv.org/pdf/2411.18350

模型下载：https://huggingface.co/rizavelioglu/tryoffdiff

在线体验：https://huggingface.co/spaces/rizavelioglu/tryoffdiff

来源：TryOffDiff ：“虚拟脱衣” 从照片中“摘取”衣服，把它变成标准化的服装图片

📰 正文#

📰 正文