📰 正文

阿里巴巴通义实验室发布其最新的Wan2.1-VACE 开源 AI 视频模型,该模型专注于视频创作和编辑。

开源版本:

1.3B(适配消费级显卡,适合开发者试验)

14B(更高性能,适用于高端任务)

是 Wan2.1 模型系列的一部分,VACE 代表“Visual and Audio-Visual Creation and Editing”(视觉与音视创作和编辑)。

它是一个统一的视频生成与编辑框架,不仅支持AI直接“生成视频,还支持对现有”视频支持多种复杂的视频创作和编辑任务。

支持以下核心任务:

参考视频生成(R2V, Reference-to-Video):基于参考图像或视频生成新的视频内容。例如,使用一张猫的图片生成猫玩球的视频。

视频到视频编辑(V2V, Video-to-Video):对现有视频进行风格化或内容修改,例如将视频背景从沙漠改为雪景。

蒙版视频到视频编辑(MV2V, Masked Video-to-Video):通过蒙版指定视频的特定区域进行编辑,例如只替换视频中的某个对象。

VACE 的核心功能

image

每一个功能点都支持文本控制、图像引导、条件融合,能够实现高度定制的视频内容生成。

有什么特别之处?

全能:以前很多模型只能做一个任务,比如只做“文本转视频”,这个模型可以一次性支持所有主流视频生成与编辑功能。

开放性强:支持各种输入形式(文字、图、视频、控制图像等)

组合自由:可以把不同功能拼在一起用,比如先用一张图片参考再扩展时长,做成风格统一的视频。

支持的输入类型

文本(prompt)

图像(图片参考)

视频(原视频编辑)

遮罩 Mask(指定修改区域)

控制信号(如深度图、光流图、灰度图、布局图、线稿等)

通过这些输入,用户可以精准控制视频中角色的动作、姿态、方向、构图布局、运动轨迹、风格风貌等。

组合能力强,灵活实现复杂操作

Wan2.1-VACE 的一大优势是允许用户将多个基础功能自由组合,灵活搭配,形成复杂应用场景。 例如:

将“图片参考 + 背景延展 + 时长延展”组合,可将一张竖图生成横屏长视频,自动填充合适背景。

将“参考图像 + 局部重绘”结合使用,可以仅替换视频中某个物体,而保留其他元素不变。

这意味着用户不需要训练多个专业模型,只用一个就能完成复杂创作流程。

控制能力

支持对视频进行细粒度控制,包括:

角色一致性

布局结构

运动姿态与幅度

控制信号输入(如深度图、光流、线稿等)

技术亮点解析

  1. VCU:视频条件单元

该模型引入了一个关键组件——VCU(Video Condition Unit),它的作用是: 无论你输入的是文字、图像、视频片段、mask 遮罩,还是控制图(如线稿、光流等),它都能进行统一处理。这使模型可以灵活应对各种视频生成与编辑任务。

  1. 序列化解耦机制

在处理输入内容(如图像序列)时,Wan2.1-VACE 将内容分为“可变”和“不可变”部分,分别编码后再融合,从而实现对视频动态元素(如运动)和静态元素(如背景)的精准控制。

模型下载:https://huggingface.co/Wan-AI/Wan2.1-VACE-1.3B GitHub:https://github.com/Wan-Video/Wan2.1


来源:阿里巴巴发布Wan2.1-VACE模型 支持多种复杂的视频创作和编辑任务