MagicTryOn：一种视频虚拟试衣 可以轻松实现给视频里面的人物进行换衣操作

📰 正文

MagicTryOn 是由浙江大学与 vivo AI 团队联合提出的一种视频虚拟试衣（Video Virtual Try-On, VVT）技术，旨在实现：

“将一件目标服装自然穿到任意视频中的人物身上，并保持连续、真实、服装细节清晰。”

与以往图像试衣不同，MagicTryOn 处理的是动态视频，它能让穿着目标服装的人在视频中自然运动（如跳舞），服装也能随人体动作稳定呈现，不变形、不漂移。

你可以上传一段人物视频（比如模特走路或跳舞），再提供一张你想“试穿”的衣服图片，它就能自动生成目标人物穿着这件衣服的完整视频，而且服装细节逼真、动作跟随自然、连帧稳定。

适用于：

电商虚拟试衣

AI 模特换装

影视人物换装

数字人内容生成

🚫 过去的问题：传统技术做不到的三件事

衣服容易变形、消失或混乱 → 传统模型用的是 U-Net + Diffusion，建模能力不强，容易忽略衣服细节。

人物一动，衣服就跟不上 → 时空一致性弱，尤其是跳舞或快速转身时，衣服会抖动或错位。

服装细节差，真实感不够 → 纹理、轮廓、光影还原差，生成的视频不具真实穿着感。

MagicTryOn功能上的优势

支持任意人物 + 任意服装组合

输入可以是任何人的视频；

提供一张目标衣服图片即可完成换装；

不依赖人体模板、专属姿态库，适应性强。

处理剧烈运动视频帧稳定

在测试集中包含跳舞、转身等剧烈动作；

MagicTryOn 仍能保持服装不变形、不漂移，体现其在复杂运动场景中的稳健性。

细节精度高，真实感强

在衣服材质（如蕾丝、印花）、轮廓（如边缘线条）、结构（如衣领、袖口）等方面表现自然；

输出视频不仅清晰，而且“看起来就像真的拍出来一样”。

✅ MagicTryOn 的核心技术亮点

用户输入：
📹 一段人物视频 + 🖼️ 一张目标服装图

系统处理：
1. 提取姿态（骨架）和身体轮廓
2. 对衣服图像提取语义、纹理、结构等多层次信息
3. 将视频数据 + 噪声输入 DiT 模型，进行逐帧“扩散生成”
4. 输出一段“人物穿着目标衣服运动”的全新视频

🔁 1. 用 Diffusion Transformer (DiT) 替代传统 U-Net

Transformer 强项是建模长距离依赖，适合处理视频中前后帧的连续变化。

同时建模“空间+时间”信息，确保衣服在人物运动时不抖动、不穿帮。

扩散模型保证画面细节质量，适合生成高清、清晰、风格统一的视频。

🎯 2. 服装结构如何“保留下来”？设计了“双阶段控制策略”

粗控制（Coarse Garment Guidance）：

把目标衣服的图片转化为一个“服装 token”，在最早的嵌入阶段提供强指导，让模型知道“要换上什么衣服”。

细控制（Fine-Grained Conditioning）：

利用 CLIP 提取的图像语义特征、纹理图、轮廓线等进一步告诉模型：

衣服是什么材质？

什么颜色？

是否有褶皱、花边？

这些信息会被逐层注入到 DiT 模型中，使衣服更加真实、贴身、细节丰富。

🧠 3. 特殊的“服装感知损失函数”：只优化衣服区域

在训练过程中，MagicTryOn 使用了一个mask-aware loss，即：

只关注“服装区域”的生成质量；

对脸、背景等区域不做强优化，避免干扰；

这样训练出来的模型在服装上的表现远强于传统方法。

项目地址：https://vivocameraresearch.github.io/magictryon/

GitHub：https://github.com/vivoCameraResearch/Magic-TryOn/

论文：https://arxiv.org/abs/2505.21325

来源：MagicTryOn：一种视频虚拟试衣可以轻松实现给视频里面的人物进行换衣操作

📰 正文#

📰 正文