📰 正文

Live Avatar 是由 阿里巴巴集团、 中国科学技术大学、北邮、浙江大学 联合开发的研究项目。

“让AI虚拟人真正做到——实时思考、实时回应、永不中断地表达。”

Live Avatar 的目标是构建一个可实时交互、可无限延展的“语音驱动虚拟人生成系统”(Audio-Driven Avatar Generation System), 支持:

实时语音输入 → 动态生成头像动画;(20帧/秒);

无限时长(10,000+ 秒)视频生成;

而且人物外观、表情、嘴型都能长期保持稳定。

支持连续会话与双向互动(可嵌入对话模型,如 Qwen3-Omni)。

要功能与特点

image

🧩 1. 真正的“实时互动”

Live Avatar 可以在你说话的同时,让虚拟人同步动起来。

你说一句,它立刻回应;

它的表情会根据语气、节奏、情感自动调整;

可以持续对话,不断流式生成。

这背后的关键技术叫:

Block-wise Autoregressive Streaming(分块自回归流式生成)

简单理解: 它把视频切成一个个“小时间块”(比如1秒),每块独立生成,但又和前面连起来, 就像AI在“边录边演”,从不暂停。

♾️ 2. 真正的“无限时长”

大部分虚拟人生成系统只能撑几十秒,超过1分钟就开始“崩”:

角色脸慢慢变形(identity drift)

颜色失真(color shift)

表情僵化(frame freezing)

Live Avatar 通过一套三层防漂移机制解决了这一痛点👇

image

效果:

实测连续生成超过 10,000 秒(接近3小时),无面部崩坏、无身份漂移。

也就是说,这个虚拟人可以一直活在镜头前。

🧠 4. 与语言模型的融合:让智能体“有了身体”

Live Avatar 可与 Qwen3-Omni 等多模态语言模型深度结合。 语音输入由语言模型解析为语义与情感信号,Live Avatar 根据该信号即时生成对应的表情与动作,实现“有语言、有表情、有反馈”的完整交互闭环。

换句话说,这是一种具备“语言脑 + 视觉身体”的AI结构。 智能体不再是抽象的文本对话框,而是可以出现在你面前的数字存在。

技术方法详解


1️⃣ 自强化分布匹配蒸馏(Self-Forcing DMD)

问题:

扩散模型虽然画质好,但推理太慢,不能实时。 所以作者设计了一种“知识迁移 + 强化训练”的方法,让模型变得既快又稳。

核心做法:

先训练一个大而精的老师模型(Teacher),它生成视频质量极高,但速度慢;

再训练一个学生模型(Student),模仿老师的输出,但要能实时生成;

在训练过程中,学生用自己的输出(而不是老师的真值)继续生成,这叫“自强化(Self-forcing)”;

同时,作者在模型的历史缓存中故意加一点噪声(称为 History Corrupt), 让模型学会在“画面有误差”的情况下依然保持稳定。

image

这就像老师教学生画画。 学生不能一笔一划照抄,而要自己根据记忆和经验去画。 老师再帮他纠正,让他越来越稳。 这样学生在遇到新情况时,也能画得又快又准。

效果:

模型生成速度更快(采样步数从几十步降到几步);

能持续生成视频而不“崩”;

视频画面依旧清晰、自然。


2️⃣ 时间步流水线并行(Timestep Pipeline Parallelism, TPP)

问题:

扩散模型生成视频时,要一步步“去噪”,每一步都要等上一步完成。 整个过程像一条单车道公路,效率非常低。

核心做法:

Live Avatar 让不同GPU分别负责不同的步骤, 形成一个“流水线”式的并行系统。

GPU编号工作内容类比GPU1做第一步去噪工人A打底GPU2做第二步去噪工人B上色GPU3做第三步去噪工人C修细节

当GPU1开始处理下一个片段时,GPU2已经在处理上一个片段的下一步。 就像流水线工厂那样,每个GPU专注一环节,整体效率大幅提高。

这就像原本是一个人独自从头到尾做完一件事,现在变成一个生产线团队,同时处理不同阶段的任务。

效果:

实时生成速度达到 20帧/秒(FPS);

推理延迟仅 2.9秒;

这是首次让14B级大模型实现真正实时运行。


3️⃣ 滚动参考帧机制(Rolling Sink Frame Mechanism, RSFM)

问题:

长时间生成视频后,人脸容易“走样”:

颜色偏移;

嘴型不一致;

面部特征逐渐漂移(identity drift)。

核心做法:

模型在生成过程中不断回看自己的参考图像,像照镜子一样,校准自己的外观。

每隔一段时间,模型会保存一帧作为“参考帧”(Sink Frame);

后续生成的新帧,会不断对照这个参考帧,以保持外貌、肤色、光照一致;

同时使用一种叫 Rolling RoPE 的时间对齐方式,让模型不会丢失时间顺序感;

另外引入 Adaptive Attention Sink(自适应注意锚点): 把生成的首帧作为新的参考图,避免真实图片与生成分布不一致的问题。

就像一个演员拍戏时,会定期看镜子确认妆容没花、衣服没乱。 模型也用参考帧不断“照镜子”,保持稳定。

效果:

生成视频可连续运行 超过3小时(10,000秒);

人物面部保持一致,无明显漂移或闪烁;

长视频质量几乎不衰减。


4️⃣ 因果式3D VAE + 分块自回归生成(Causal 3D VAE + Block-wise Generation)

作用:

解决时间一致性与显存占用问题。

使用“因果式”3D VAE,只允许模型“看到”过去帧,不访问未来帧;

将视频分为多个小块(block),每块几帧;

每个块内部全局处理(保证局部连贯),块与块之间按时间顺序递推;

内存占用小,可持续流式生成。

模型不是一次性生成整段视频,而是一段接一段地生成,每段都衔接自然。

项目地址:https://liveavatar.github.io/

GitHub:https://github.com/Alibaba-Quark/LiveAvatar

论文:https://arxiv.org/pdf/2512.04677


来源:Live Avatar:实时、无限长的语音驱动虚拟人生成系统