📰 正文
Live Avatar 是由 阿里巴巴集团、 中国科学技术大学、北邮、浙江大学 联合开发的研究项目。
“让AI虚拟人真正做到——实时思考、实时回应、永不中断地表达。”
Live Avatar 的目标是构建一个可实时交互、可无限延展的“语音驱动虚拟人生成系统”(Audio-Driven Avatar Generation System), 支持:
实时语音输入 → 动态生成头像动画;(20帧/秒);
无限时长(10,000+ 秒)视频生成;
而且人物外观、表情、嘴型都能长期保持稳定。
支持连续会话与双向互动(可嵌入对话模型,如 Qwen3-Omni)。
要功能与特点
🧩 1. 真正的“实时互动”
Live Avatar 可以在你说话的同时,让虚拟人同步动起来。
你说一句,它立刻回应;
它的表情会根据语气、节奏、情感自动调整;
可以持续对话,不断流式生成。
这背后的关键技术叫:
Block-wise Autoregressive Streaming(分块自回归流式生成)
简单理解: 它把视频切成一个个“小时间块”(比如1秒),每块独立生成,但又和前面连起来, 就像AI在“边录边演”,从不暂停。
♾️ 2. 真正的“无限时长”
大部分虚拟人生成系统只能撑几十秒,超过1分钟就开始“崩”:
角色脸慢慢变形(identity drift)
颜色失真(color shift)
表情僵化(frame freezing)
Live Avatar 通过一套三层防漂移机制解决了这一痛点👇
效果:
实测连续生成超过 10,000 秒(接近3小时),无面部崩坏、无身份漂移。
也就是说,这个虚拟人可以一直活在镜头前。
🧠 4. 与语言模型的融合:让智能体“有了身体”
Live Avatar 可与 Qwen3-Omni 等多模态语言模型深度结合。 语音输入由语言模型解析为语义与情感信号,Live Avatar 根据该信号即时生成对应的表情与动作,实现“有语言、有表情、有反馈”的完整交互闭环。
换句话说,这是一种具备“语言脑 + 视觉身体”的AI结构。 智能体不再是抽象的文本对话框,而是可以出现在你面前的数字存在。
技术方法详解
1️⃣ 自强化分布匹配蒸馏(Self-Forcing DMD)
问题:
扩散模型虽然画质好,但推理太慢,不能实时。 所以作者设计了一种“知识迁移 + 强化训练”的方法,让模型变得既快又稳。
核心做法:
先训练一个大而精的老师模型(Teacher),它生成视频质量极高,但速度慢;
再训练一个学生模型(Student),模仿老师的输出,但要能实时生成;
在训练过程中,学生用自己的输出(而不是老师的真值)继续生成,这叫“自强化(Self-forcing)”;
同时,作者在模型的历史缓存中故意加一点噪声(称为 History Corrupt), 让模型学会在“画面有误差”的情况下依然保持稳定。
这就像老师教学生画画。 学生不能一笔一划照抄,而要自己根据记忆和经验去画。 老师再帮他纠正,让他越来越稳。 这样学生在遇到新情况时,也能画得又快又准。
效果:
模型生成速度更快(采样步数从几十步降到几步);
能持续生成视频而不“崩”;
视频画面依旧清晰、自然。
2️⃣ 时间步流水线并行(Timestep Pipeline Parallelism, TPP)
问题:
扩散模型生成视频时,要一步步“去噪”,每一步都要等上一步完成。 整个过程像一条单车道公路,效率非常低。
核心做法:
Live Avatar 让不同GPU分别负责不同的步骤, 形成一个“流水线”式的并行系统。
GPU编号工作内容类比GPU1做第一步去噪工人A打底GPU2做第二步去噪工人B上色GPU3做第三步去噪工人C修细节
当GPU1开始处理下一个片段时,GPU2已经在处理上一个片段的下一步。 就像流水线工厂那样,每个GPU专注一环节,整体效率大幅提高。
这就像原本是一个人独自从头到尾做完一件事,现在变成一个生产线团队,同时处理不同阶段的任务。
效果:
实时生成速度达到 20帧/秒(FPS);
推理延迟仅 2.9秒;
这是首次让14B级大模型实现真正实时运行。
3️⃣ 滚动参考帧机制(Rolling Sink Frame Mechanism, RSFM)
问题:
长时间生成视频后,人脸容易“走样”:
颜色偏移;
嘴型不一致;
面部特征逐渐漂移(identity drift)。
核心做法:
模型在生成过程中不断回看自己的参考图像,像照镜子一样,校准自己的外观。
每隔一段时间,模型会保存一帧作为“参考帧”(Sink Frame);
后续生成的新帧,会不断对照这个参考帧,以保持外貌、肤色、光照一致;
同时使用一种叫 Rolling RoPE 的时间对齐方式,让模型不会丢失时间顺序感;
另外引入 Adaptive Attention Sink(自适应注意锚点): 把生成的首帧作为新的参考图,避免真实图片与生成分布不一致的问题。
就像一个演员拍戏时,会定期看镜子确认妆容没花、衣服没乱。 模型也用参考帧不断“照镜子”,保持稳定。
效果:
生成视频可连续运行 超过3小时(10,000秒);
人物面部保持一致,无明显漂移或闪烁;
长视频质量几乎不衰减。
4️⃣ 因果式3D VAE + 分块自回归生成(Causal 3D VAE + Block-wise Generation)
作用:
解决时间一致性与显存占用问题。
使用“因果式”3D VAE,只允许模型“看到”过去帧,不访问未来帧;
将视频分为多个小块(block),每块几帧;
每个块内部全局处理(保证局部连贯),块与块之间按时间顺序递推;
内存占用小,可持续流式生成。
模型不是一次性生成整段视频,而是一段接一段地生成,每段都衔接自然。
项目地址:https://liveavatar.github.io/
GitHub:https://github.com/Alibaba-Quark/LiveAvatar
论文:https://arxiv.org/pdf/2512.04677