阿里巴巴发布Wan2.1-VACE模型 支持多种复杂的视频创作和编辑任务

📰 正文

阿里巴巴通义实验室发布其最新的Wan2.1-VACE 开源 AI 视频模型，该模型专注于视频创作和编辑。

开源版本：

1.3B（适配消费级显卡，适合开发者试验）

14B（更高性能，适用于高端任务）

是 Wan2.1 模型系列的一部分，VACE 代表“Visual and Audio-Visual Creation and Editing”（视觉与音视创作和编辑）。

它是一个统一的视频生成与编辑框架，不仅支持AI直接“生成视频，还支持对现有”视频支持多种复杂的视频创作和编辑任务。

支持以下核心任务：

参考视频生成（R2V, Reference-to-Video）：基于参考图像或视频生成新的视频内容。例如，使用一张猫的图片生成猫玩球的视频。

视频到视频编辑（V2V, Video-to-Video）：对现有视频进行风格化或内容修改，例如将视频背景从沙漠改为雪景。

蒙版视频到视频编辑（MV2V, Masked Video-to-Video）：通过蒙版指定视频的特定区域进行编辑，例如只替换视频中的某个对象。

VACE 的核心功能

每一个功能点都支持文本控制、图像引导、条件融合，能够实现高度定制的视频内容生成。

有什么特别之处？

全能：以前很多模型只能做一个任务，比如只做“文本转视频”，这个模型可以一次性支持所有主流视频生成与编辑功能。

开放性强：支持各种输入形式（文字、图、视频、控制图像等）

组合自由：可以把不同功能拼在一起用，比如先用一张图片参考再扩展时长，做成风格统一的视频。

支持的输入类型

文本（prompt）

图像（图片参考）

视频（原视频编辑）

遮罩 Mask（指定修改区域）

控制信号（如深度图、光流图、灰度图、布局图、线稿等）

通过这些输入，用户可以精准控制视频中角色的动作、姿态、方向、构图布局、运动轨迹、风格风貌等。

组合能力强，灵活实现复杂操作

Wan2.1-VACE 的一大优势是允许用户将多个基础功能自由组合，灵活搭配，形成复杂应用场景。例如：

将“图片参考 + 背景延展 + 时长延展”组合，可将一张竖图生成横屏长视频，自动填充合适背景。

将“参考图像 + 局部重绘”结合使用，可以仅替换视频中某个物体，而保留其他元素不变。

这意味着用户不需要训练多个专业模型，只用一个就能完成复杂创作流程。

控制能力

支持对视频进行细粒度控制，包括：

角色一致性

布局结构

运动姿态与幅度

控制信号输入（如深度图、光流、线稿等）

技术亮点解析

该模型引入了一个关键组件——VCU（Video Condition Unit），它的作用是：无论你输入的是文字、图像、视频片段、mask 遮罩，还是控制图（如线稿、光流等），它都能进行统一处理。这使模型可以灵活应对各种视频生成与编辑任务。

在处理输入内容（如图像序列）时，Wan2.1-VACE 将内容分为“可变”和“不可变”部分，分别编码后再融合，从而实现对视频动态元素（如运动）和静态元素（如背景）的精准控制。

模型下载：https://huggingface.co/Wan-AI/Wan2.1-VACE-1.3B GitHub：https://github.com/Wan-Video/Wan2.1