Live Avatar：实时、无限长的语音驱动虚拟人生成系统

📰 正文

Live Avatar 是由阿里巴巴集团、中国科学技术大学、北邮、浙江大学联合开发的研究项目。

“让AI虚拟人真正做到——实时思考、实时回应、永不中断地表达。”

Live Avatar 的目标是构建一个可实时交互、可无限延展的“语音驱动虚拟人生成系统”（Audio-Driven Avatar Generation System），支持：

实时语音输入 → 动态生成头像动画；（20帧/秒）；

无限时长（10,000+ 秒）视频生成；

而且人物外观、表情、嘴型都能长期保持稳定。

支持连续会话与双向互动（可嵌入对话模型，如 Qwen3-Omni）。

要功能与特点

🧩 1. 真正的“实时互动”

Live Avatar 可以在你说话的同时，让虚拟人同步动起来。

你说一句，它立刻回应；

它的表情会根据语气、节奏、情感自动调整；

可以持续对话，不断流式生成。

这背后的关键技术叫：

Block-wise Autoregressive Streaming（分块自回归流式生成）

简单理解：它把视频切成一个个“小时间块”（比如1秒），每块独立生成，但又和前面连起来，就像AI在“边录边演”，从不暂停。

♾️ 2. 真正的“无限时长”

大部分虚拟人生成系统只能撑几十秒，超过1分钟就开始“崩”：

角色脸慢慢变形（identity drift）

颜色失真（color shift）

表情僵化（frame freezing）

Live Avatar 通过一套三层防漂移机制解决了这一痛点👇

效果：

实测连续生成超过 10,000 秒（接近3小时），无面部崩坏、无身份漂移。

也就是说，这个虚拟人可以一直活在镜头前。

🧠 4. 与语言模型的融合：让智能体“有了身体”

Live Avatar 可与 Qwen3-Omni 等多模态语言模型深度结合。语音输入由语言模型解析为语义与情感信号，Live Avatar 根据该信号即时生成对应的表情与动作，实现“有语言、有表情、有反馈”的完整交互闭环。

换句话说，这是一种具备“语言脑 + 视觉身体”的AI结构。智能体不再是抽象的文本对话框，而是可以出现在你面前的数字存在。

技术方法详解

1️⃣ 自强化分布匹配蒸馏（Self-Forcing DMD）

问题：

扩散模型虽然画质好，但推理太慢，不能实时。所以作者设计了一种“知识迁移 + 强化训练”的方法，让模型变得既快又稳。

核心做法：

先训练一个大而精的老师模型（Teacher），它生成视频质量极高，但速度慢；

再训练一个学生模型（Student），模仿老师的输出，但要能实时生成；

在训练过程中，学生用自己的输出（而不是老师的真值）继续生成，这叫“自强化（Self-forcing）”；

同时，作者在模型的历史缓存中故意加一点噪声（称为 History Corrupt），让模型学会在“画面有误差”的情况下依然保持稳定。

这就像老师教学生画画。学生不能一笔一划照抄，而要自己根据记忆和经验去画。老师再帮他纠正，让他越来越稳。这样学生在遇到新情况时，也能画得又快又准。

效果：

模型生成速度更快（采样步数从几十步降到几步）；

能持续生成视频而不“崩”；

视频画面依旧清晰、自然。

2️⃣ 时间步流水线并行（Timestep Pipeline Parallelism, TPP）

问题：

扩散模型生成视频时，要一步步“去噪”，每一步都要等上一步完成。整个过程像一条单车道公路，效率非常低。

核心做法：

Live Avatar 让不同GPU分别负责不同的步骤，形成一个“流水线”式的并行系统。

GPU编号工作内容类比GPU1做第一步去噪工人A打底GPU2做第二步去噪工人B上色GPU3做第三步去噪工人C修细节

当GPU1开始处理下一个片段时，GPU2已经在处理上一个片段的下一步。就像流水线工厂那样，每个GPU专注一环节，整体效率大幅提高。

这就像原本是一个人独自从头到尾做完一件事，现在变成一个生产线团队，同时处理不同阶段的任务。

效果：

实时生成速度达到 20帧/秒（FPS）；

推理延迟仅 2.9秒；

这是首次让14B级大模型实现真正实时运行。

3️⃣ 滚动参考帧机制（Rolling Sink Frame Mechanism, RSFM）

问题：

长时间生成视频后，人脸容易“走样”：

颜色偏移；

嘴型不一致；

面部特征逐渐漂移（identity drift）。

核心做法：

模型在生成过程中不断回看自己的参考图像，像照镜子一样，校准自己的外观。

每隔一段时间，模型会保存一帧作为“参考帧”（Sink Frame）；

后续生成的新帧，会不断对照这个参考帧，以保持外貌、肤色、光照一致；

同时使用一种叫 Rolling RoPE 的时间对齐方式，让模型不会丢失时间顺序感；

另外引入 Adaptive Attention Sink（自适应注意锚点）：把生成的首帧作为新的参考图，避免真实图片与生成分布不一致的问题。

就像一个演员拍戏时，会定期看镜子确认妆容没花、衣服没乱。模型也用参考帧不断“照镜子”，保持稳定。

效果：

生成视频可连续运行超过3小时（10,000秒）；

人物面部保持一致，无明显漂移或闪烁；

长视频质量几乎不衰减。

4️⃣ 因果式3D VAE + 分块自回归生成（Causal 3D VAE + Block-wise Generation）

作用：

解决时间一致性与显存占用问题。

使用“因果式”3D VAE，只允许模型“看到”过去帧，不访问未来帧；

将视频分为多个小块（block），每块几帧；

每个块内部全局处理（保证局部连贯），块与块之间按时间顺序递推；

内存占用小，可持续流式生成。

模型不是一次性生成整段视频，而是一段接一段地生成，每段都衔接自然。

项目地址：https://liveavatar.github.io/

GitHub：https://github.com/Alibaba-Quark/LiveAvatar

论文：https://arxiv.org/pdf/2512.04677

来源：Live Avatar：实时、无限长的语音驱动虚拟人生成系统

📰 正文#

📰 正文