📰 正文

OOTDiffusion 是一个基于扩散模型(Latent Diffusion)的虚拟试穿系统。它使用先进的服饰融合技术,将衣物图像与人物图像无缝结合,为虚拟试穿提供高度可控的解决方案。

它可以将一件衣服“穿”到任何人物身上,让你看到穿上去后的样子。比如,想看看某件T恤穿在自己身上的效果,它可以自动帮你生成逼真的试穿图片。

该系统适用于各种场景,包括时尚设计、电商平台以及个性化虚拟试穿需求。

它解决了什么问题? 1.

更真实的试穿效果:

以前很多虚拟试穿技术生成的图片不够自然,比如衣服的褶皱、光影效果不对,看起来很假。

OOTDiffusion 能生成更加真实的效果,衣服纹理、图案和细节都能很好地保留。

省去了复杂的操作:

传统方法需要先把衣服变形、调整才能匹配人物,操作复杂,效果还容易失真。

它不需要这个步骤,直接让衣服“贴合”到目标人物上,既快又准。

用户能控制试穿效果:

用户可以调整参数,比如让衣服的细节更清晰,或者让它自然地融入图片。

最近更新内容 1.

ONNX 支持:

添加了对 ONNX 模型 的支持,用于人像分割(Human Parsing)。

这一改进优化了模型的兼容性和运行效率,解决了许多环境问题。

模型权重发布:

发布了基于以下数据集训练的模型权重:

VITON-HD:半身虚拟试穿模型。

Dress Code:全身虚拟试穿模型。

主要功能

  1. 虚拟试穿

半身试穿:

模型专为 VITON-HD 数据集设计,支持半身衣物(如上衣)的试穿效果。

全身试穿:

针对 Dress Code 数据集,支持全身服装(包括上身、下身及连衣裙)的虚拟试穿。

服装类别可定制:0 表示上衣、1 表示下装、2 表示连衣裙。

生成效果真实:

细节保留:衣服上的图案、文字、褶皱和颜色都会完整展现。

自然融合:衣服和人体形状贴合,光影效果自然,看起来像真人穿着。

高分辨率生成

支持 1024×768 的高质量图片,适合电商展示和设计需求。

image

  1. 高精度服饰融合

自动服装与人体对齐

根据人物姿势和体型,智能调整服装形状和位置,无需手动变形。

 基于扩散模型的潜在空间生成:

通过潜在扩散技术,将服饰与人物图像进行高精度融合。

确保试穿效果自然,保留人物原始结构和姿态。

利用 OpenPose 和人像分割技术(Human Parsing),实现人体与服装的精准对齐。

image

  1. 模型与工具支持

提供预训练模型,支持以下功能:

人像分割:精准分割人物与背景。

服装试穿:根据用户输入生成试穿效果。

姿态识别:通过 OpenPose 检测人体姿态。

支持 ONNX 模型优化,提高分割和生成效率。

  1. 可控生成

用户可通过参数控制生成结果:

缩放比例(Scale):调整服装的尺寸。

采样次数(Sample):增加生成细节。

服装类别:指定衣物类型(上衣、下装或连衣裙)。

image

  1. 跨平台运行

适配 Linux 系统,代码和模型运行在 Ubuntu 22.04 上。

提供简单的安装脚本和命令,快速搭建试穿环境。


使用场景

时尚与电商

为在线购物平台提供虚拟试穿功能,增强用户体验。

帮助时尚品牌展示新款服饰。

个性化体验

提供个性化虚拟试穿服务,让用户尝试不同服装搭配。

研究与开发

作为服饰试穿领域的研究工具,探索扩散模型的应用。

OOTDiffusion 的技术方法

OOTDiffusion 是通过先进的人工智能技术来实现虚拟试穿的,它的核心技术包括 扩散模型 和 服装与人体的融合算法。以下是它的主要技术方法及工作原理,用简单的语言解释。


  1. 扩散模型(Latent Diffusion Model, LDM)

这是 OOTDiffusion 的核心技术,用来生成高质量的图像。

它是怎么工作的?

图像生成的核心思想:

模型先生成一张模糊的图像,然后一步步去除噪声,让它变得清晰。

就像从一张打了马赛克的图片,逐渐还原到高清图片。

为什么用扩散模型?

它生成的图像更逼真,可以很好地保留衣服的纹理、颜色和细节,比如褶皱、花纹。


  1. 服装与人体的智能融合

OOTDiffusion 有一种特别的方法叫 Outfitting Fusion(服装融合),用来让衣服和人体自然结合。

它是怎么做的? 1.

服装与人体的细节分析:

模型会先分析人体的形状和衣服的特点,比如人的姿势、手臂的位置,以及衣服的大小、纹理等。

智能对齐:

用一种叫“自注意力机制”的方法,让衣服自动贴合到人体上,比如衣袖贴合手臂,衣领跟着脖子调整。

不需要传统的“变形工具”,避免衣服看起来不自然。


  1. 服装特征的学习

OOTDiffusion 专门设计了一种 Outfitting UNet 模型,用来学习衣服的所有细节。

它能学到什么?

衣服的纹理和图案:比如衣服上的花纹、文字不会模糊丢失。

颜色和光影:确保衣服在不同人体上光影自然,颜色不会偏差。

为什么特别?

它一步就能完成所有特征的学习和融合,比传统的多步骤方法更高效。


  1. 服装随机丢弃(Outfitting Dropout)

为了让模型生成更加灵活,OOTDiffusion 在训练时会“故意给模型出难题”。

怎么出难题?

随机丢掉一部分衣服特征:

模型有时会只用部分衣服信息来生成试穿效果。

这样,模型可以学会如何在信息缺失时依然生成高质量的图像。

有什么好处?

增强了模型的控制能力,用户可以通过调整参数,控制试穿结果中的服装细节强度。


  1. 辅助技术:人体分割与姿态检测

为了准确地把衣服“穿”到照片中,系统使用了以下技术:

人体分割(Human Parsing):

把人体分成不同的区域(比如头、手臂、腿),方便衣服和人体的匹配。

姿态检测(OpenPose):

识别人体的姿势,比如手臂是抬起还是下垂,从而调整衣服的形状。


  1. 高分辨率图像生成

使用预训练的 Stable Diffusion 模型(一个强大的扩散模型)作为基础。

针对高分辨率的 VITON-HD 和 Dress Code 数据集进行优化训练,生成分辨率高达 1024×768 的图像。


技术总结

扩散模型:让图像生成更逼真。

服装融合:自然地把衣服和人体结合。

特征学习:保留衣服的所有细节和颜色。

随机丢弃:增强灵活性,让生成结果可控。

人体检测:准确识别人体形状和姿势,提升衣服的贴合度。

一句话总结:OOTDiffusion 使用智能 AI 方法,不仅生成效果真实,还能让衣服看起来和人体完全贴合,真正实现“试穿”的体验。

GitHub:https://github.com/levihsu/OOTDiffusion

技术报告:https://arxiv.org/pdf/2403.01779

在线体验:

https://huggingface.co/spaces/levihsu/OOTDiffusion

https://replicate.com/viktorfa/oot_diffusion


来源:OOTDiffusion:支持半身、全身的开源的高分辨率虚拟试穿模型