📰 正文
MagicTryOn 是由浙江大学与 vivo AI 团队联合提出的一种视频虚拟试衣(Video Virtual Try-On, VVT)技术,旨在实现:
“将一件目标服装自然穿到任意视频中的人物身上,并保持连续、真实、服装细节清晰。”
与以往图像试衣不同,MagicTryOn 处理的是动态视频,它能让穿着目标服装的人在视频中自然运动(如跳舞),服装也能随人体动作稳定呈现,不变形、不漂移。
你可以上传一段人物视频(比如模特走路或跳舞),再提供一张你想“试穿”的衣服图片,它就能自动生成目标人物穿着这件衣服的完整视频,而且服装细节逼真、动作跟随自然、连帧稳定。
适用于:
电商虚拟试衣
AI 模特换装
影视人物换装
数字人内容生成
🚫 过去的问题:传统技术做不到的三件事
衣服容易变形、消失或混乱 → 传统模型用的是 U-Net + Diffusion,建模能力不强,容易忽略衣服细节。
人物一动,衣服就跟不上 → 时空一致性弱,尤其是跳舞或快速转身时,衣服会抖动或错位。
服装细节差,真实感不够 → 纹理、轮廓、光影还原差,生成的视频不具真实穿着感。
MagicTryOn功能上的优势
- 支持任意人物 + 任意服装组合
输入可以是任何人的视频;
提供一张目标衣服图片即可完成换装;
不依赖人体模板、专属姿态库,适应性强。
- 处理剧烈运动视频帧稳定
在测试集中包含跳舞、转身等剧烈动作;
MagicTryOn 仍能保持服装不变形、不漂移,体现其在复杂运动场景中的稳健性。
- 细节精度高,真实感强
在衣服材质(如蕾丝、印花)、轮廓(如边缘线条)、结构(如衣领、袖口)等方面表现自然;
输出视频不仅清晰,而且“看起来就像真的拍出来一样”。
✅ MagicTryOn 的核心技术亮点
用户输入:
📹 一段人物视频 + 🖼️ 一张目标服装图
系统处理:
1. 提取姿态(骨架)和身体轮廓
2. 对衣服图像提取语义、纹理、结构等多层次信息
3. 将视频数据 + 噪声输入 DiT 模型,进行逐帧“扩散生成”
4. 输出一段“人物穿着目标衣服运动”的全新视频
🔁 1. 用 Diffusion Transformer (DiT) 替代传统 U-Net
Transformer 强项是建模长距离依赖,适合处理视频中前后帧的连续变化。
同时建模“空间+时间”信息,确保衣服在人物运动时不抖动、不穿帮。
扩散模型保证画面细节质量,适合生成高清、清晰、风格统一的视频。
🎯 2. 服装结构如何“保留下来”?设计了“双阶段控制策略”
粗控制(Coarse Garment Guidance):
把目标衣服的图片转化为一个“服装 token”,在最早的嵌入阶段提供强指导,让模型知道“要换上什么衣服”。
细控制(Fine-Grained Conditioning):
利用 CLIP 提取的图像语义特征、纹理图、轮廓线等进一步告诉模型:
衣服是什么材质?
什么颜色?
是否有褶皱、花边?
这些信息会被逐层注入到 DiT 模型中,使衣服更加真实、贴身、细节丰富。
🧠 3. 特殊的“服装感知损失函数”:只优化衣服区域
在训练过程中,MagicTryOn 使用了一个mask-aware loss,即:
只关注“服装区域”的生成质量;
对脸、背景等区域不做强优化,避免干扰;
这样训练出来的模型在服装上的表现远强于传统方法。
项目地址:https://vivocameraresearch.github.io/magictryon/
GitHub:https://github.com/vivoCameraResearch/Magic-TryOn/
论文:https://arxiv.org/abs/2505.21325