📰 正文

MagicTryOn 是由浙江大学与 vivo AI 团队联合提出的一种视频虚拟试衣(Video Virtual Try-On, VVT)技术,旨在实现:

“将一件目标服装自然穿到任意视频中的人物身上,并保持连续、真实、服装细节清晰。”

与以往图像试衣不同,MagicTryOn 处理的是动态视频,它能让穿着目标服装的人在视频中自然运动(如跳舞),服装也能随人体动作稳定呈现,不变形、不漂移。

你可以上传一段人物视频(比如模特走路或跳舞),再提供一张你想“试穿”的衣服图片,它就能自动生成目标人物穿着这件衣服的完整视频,而且服装细节逼真、动作跟随自然、连帧稳定。

适用于:

电商虚拟试衣

AI 模特换装

影视人物换装

数字人内容生成

🚫 过去的问题:传统技术做不到的三件事

衣服容易变形、消失或混乱 → 传统模型用的是 U-Net + Diffusion,建模能力不强,容易忽略衣服细节。

人物一动,衣服就跟不上 → 时空一致性弱,尤其是跳舞或快速转身时,衣服会抖动或错位。

服装细节差,真实感不够 → 纹理、轮廓、光影还原差,生成的视频不具真实穿着感。

MagicTryOn功能上的优势

  1. 支持任意人物 + 任意服装组合

输入可以是任何人的视频;

提供一张目标衣服图片即可完成换装;

不依赖人体模板、专属姿态库,适应性强。

  1. 处理剧烈运动视频帧稳定

在测试集中包含跳舞、转身等剧烈动作;

MagicTryOn 仍能保持服装不变形、不漂移,体现其在复杂运动场景中的稳健性。

  1. 细节精度高,真实感强

在衣服材质(如蕾丝、印花)、轮廓(如边缘线条)、结构(如衣领、袖口)等方面表现自然;

输出视频不仅清晰,而且“看起来就像真的拍出来一样”。


✅ MagicTryOn 的核心技术亮点

用户输入:
📹 一段人物视频 + 🖼️ 一张目标服装图

系统处理:
1. 提取姿态(骨架)和身体轮廓
2. 对衣服图像提取语义、纹理、结构等多层次信息
3. 将视频数据 + 噪声输入 DiT 模型,进行逐帧“扩散生成”
4. 输出一段“人物穿着目标衣服运动”的全新视频

🔁 1. 用 Diffusion Transformer (DiT) 替代传统 U-Net

Transformer 强项是建模长距离依赖,适合处理视频中前后帧的连续变化。

同时建模“空间+时间”信息,确保衣服在人物运动时不抖动、不穿帮。

扩散模型保证画面细节质量,适合生成高清、清晰、风格统一的视频。

image


🎯 2. 服装结构如何“保留下来”?设计了“双阶段控制策略”

粗控制(Coarse Garment Guidance):

把目标衣服的图片转化为一个“服装 token”,在最早的嵌入阶段提供强指导,让模型知道“要换上什么衣服”。

细控制(Fine-Grained Conditioning):

利用 CLIP 提取的图像语义特征、纹理图、轮廓线等进一步告诉模型:

衣服是什么材质?

什么颜色?

是否有褶皱、花边?

这些信息会被逐层注入到 DiT 模型中,使衣服更加真实、贴身、细节丰富。


🧠 3. 特殊的“服装感知损失函数”:只优化衣服区域

在训练过程中,MagicTryOn 使用了一个mask-aware loss,即:

只关注“服装区域”的生成质量;

对脸、背景等区域不做强优化,避免干扰;

这样训练出来的模型在服装上的表现远强于传统方法。

项目地址:https://vivocameraresearch.github.io/magictryon/

GitHub:https://github.com/vivoCameraResearch/Magic-TryOn/

论文:https://arxiv.org/abs/2505.21325


来源:MagicTryOn:一种视频虚拟试衣 可以轻松实现给视频里面的人物进行换衣操作