📰 正文
阿里巴巴通义实验室发布其最新的Wan2.1-VACE 开源 AI 视频模型,该模型专注于视频创作和编辑。
开源版本:
1.3B(适配消费级显卡,适合开发者试验)
14B(更高性能,适用于高端任务)
是 Wan2.1 模型系列的一部分,VACE 代表“Visual and Audio-Visual Creation and Editing”(视觉与音视创作和编辑)。
它是一个统一的视频生成与编辑框架,不仅支持AI直接“生成视频,还支持对现有”视频支持多种复杂的视频创作和编辑任务。
支持以下核心任务:
参考视频生成(R2V, Reference-to-Video):基于参考图像或视频生成新的视频内容。例如,使用一张猫的图片生成猫玩球的视频。
视频到视频编辑(V2V, Video-to-Video):对现有视频进行风格化或内容修改,例如将视频背景从沙漠改为雪景。
蒙版视频到视频编辑(MV2V, Masked Video-to-Video):通过蒙版指定视频的特定区域进行编辑,例如只替换视频中的某个对象。
VACE 的核心功能
每一个功能点都支持文本控制、图像引导、条件融合,能够实现高度定制的视频内容生成。
有什么特别之处?
全能:以前很多模型只能做一个任务,比如只做“文本转视频”,这个模型可以一次性支持所有主流视频生成与编辑功能。
开放性强:支持各种输入形式(文字、图、视频、控制图像等)
组合自由:可以把不同功能拼在一起用,比如先用一张图片参考再扩展时长,做成风格统一的视频。
支持的输入类型
文本(prompt)
图像(图片参考)
视频(原视频编辑)
遮罩 Mask(指定修改区域)
控制信号(如深度图、光流图、灰度图、布局图、线稿等)
通过这些输入,用户可以精准控制视频中角色的动作、姿态、方向、构图布局、运动轨迹、风格风貌等。
组合能力强,灵活实现复杂操作
Wan2.1-VACE 的一大优势是允许用户将多个基础功能自由组合,灵活搭配,形成复杂应用场景。 例如:
将“图片参考 + 背景延展 + 时长延展”组合,可将一张竖图生成横屏长视频,自动填充合适背景。
将“参考图像 + 局部重绘”结合使用,可以仅替换视频中某个物体,而保留其他元素不变。
这意味着用户不需要训练多个专业模型,只用一个就能完成复杂创作流程。
控制能力
支持对视频进行细粒度控制,包括:
角色一致性
布局结构
运动姿态与幅度
控制信号输入(如深度图、光流、线稿等)
技术亮点解析
- VCU:视频条件单元
该模型引入了一个关键组件——VCU(Video Condition Unit),它的作用是: 无论你输入的是文字、图像、视频片段、mask 遮罩,还是控制图(如线稿、光流等),它都能进行统一处理。这使模型可以灵活应对各种视频生成与编辑任务。
- 序列化解耦机制
在处理输入内容(如图像序列)时,Wan2.1-VACE 将内容分为“可变”和“不可变”部分,分别编码后再融合,从而实现对视频动态元素(如运动)和静态元素(如背景)的精准控制。
模型下载:https://huggingface.co/Wan-AI/Wan2.1-VACE-1.3B GitHub:https://github.com/Wan-Video/Wan2.1