📰 正文
音频驱动的人类动画(Audio-driven Human Animation)近年来发展迅速,特别是在 语音驱动头像说话视频生成 和 全身动画生成 两大方向。
然而,现有方法面临以下核心挑战:
腾讯混元团队 提出了一种方法来解决以上问题:HunyuanVideo-Avatar
HunyuanVideo-Avatar是一个基于多模态扩散Transformer (MM-DiT) 的音频驱动视频生成框架。
它可以在输入一张人物图像与一段音频的条件下:
生成自然生动的面部和肢体动作;
精准还原音频情绪与语调;
支持多个角色各自响应各自的音频,实现“群像对话”。
主要功能
🎭 情绪可控的虚拟人动画生成:输入角色图像 + 音频,可生成情绪同步的口型与表情动画。
👯♂️ 支持多角色动画生成:实现多个虚拟人独立说话并表现各自情绪。
🖼️ 多风格图像支持:支持真实照片、卡通、3D、拟人角色等图像风格。
📏 多尺度生成:支持肖像、半身、全身图像。
模型型核心架构概览
HunyuanVideo-Avatar 建立在腾讯自研的多模态扩散Transformer(MM-DiT)架构之上,整套系统由三大核心模块组成:
1️⃣ 角色图像注入模块(Character Image Injection Module)
目的: 提高人物在视频中的一致性,同时保持动作自然、不僵硬。
问题来源:
传统做法在生成视频时用“参考图像”控制人物身份,但这种方式往往导致“动作不自然”、“训练与推理不一致”等问题。
解决方式:
提出一种通道级特征注入方法:将图像的特征编码后,通过加法融合注入到视频生成模块中。
同时进行空间位置的偏移,使模型不会直接“复制”图像内容,而是学会在保持一致性的同时生成新的姿态和动作。
特点:
不需多视角、多帧视频,仅需单张图像即可驱动;
输出视频包含唇动、表情、头部与身体动作;
动作自然,表情真实,不“僵硬”。
2️⃣ 音频情绪模块(Audio Emotion Module)
目的: 让视频中的角色表情能准确反映音频中的情绪信息。
做法:
用户可提供一个情绪参考图像(例如“愤怒的人脸”),系统将其编码成特征;
然后使用 空间注意力机制(cross-attention) 将该情绪特征注入到视频latent中;
整个过程会根据音频内容调节情绪在视频中的表达方式,使最终输出更具“情感表现力”。
特点:
可通过情绪参考图像,指导模型生成特定情绪的表情;
情绪控制精细化,面部肌肉动态自然协调;
支持情绪在视频中随语音波动。
3️⃣ 面部区域音频适配器(Face-Aware Audio Adapter)
目的: 支持多人物独立驱动,实现一个场景中多个角色对话。
关键点:
给不同角色分别加上“面部掩码(face mask)”;
在潜空间中只对被激活面部区域进行音频注入;
避免多个角色同时受同一段音频影响,从而实现“角色分离”。
好处: 这个机制允许每个角色“各说各话”,而不会互相干扰。
特点:
每个角色可以由独立的音频驱动;
音频只作用于指定角色,避免“串音”;
实现角色级别音频分离与控制;
可生成群像对话、访谈、演讲等复杂场景。
4️⃣ 长视频生成机制(Time-Aware Position Shift Fusion)
问题: 现有基础模型只能生成129帧,无法处理长音频。
解决方案:
借鉴 Sonic 的方法,在生成视频时使用“滑动窗口 + 时间偏移”方式进行拼接;
每一段视频与上段有“上下文衔接区”,从而实现视频的连续、自然衔接。
特点:
采用时间偏移融合机制(Time-Aware Position Shift);
视频帧之间过渡平滑,无明显跳帧、断裂;
支持与完整语音长段进行持续生成。
5️⃣ 角色一致性与身份保持(Character Consistency)
无论生成多少帧,人物形象保持不变,不“崩脸”、“走形”。
✨ 特点:
图像注入机制确保视频中人物外观与输入图像高度一致;
支持保持背景不变、衣着、风格统一;
可以用于卡通、油画、素描、真人等多种风格图像。
📊 实验验证与表现
📁 数据集
使用大规模音频-视频训练数据(约500,000条,累计1250小时),经严格筛选,保证同步性和质量。
测试集包括公开人脸数据集(CelebV-HQ, HDTF)和自建全身动画数据集。
📏 评估指标
IQA/ASE/FID/FVD:衡量画质、动态表现、自然度;
Sync-C:评估音视频同步程度;
用户打分(主观评价):包括身份一致性、唇动准确性、面部与身体自然度。
📌 实验结果总结
⚠️ 局限与未来方向
❌ 当前局限
情绪识别依赖额外参考图像,不够智能;
推理速度慢,10秒高清视频生成需60分钟;
缺乏交互能力,无法响应用户实时反馈。
✅ 未来展望
加入音频情绪自动识别模块,无需参考图像;
优化推理效率,支持实时合成或边播边生成;
实现实时对话式数字人,支持多轮互动。
项目地址:https://hunyuanvideo-avatar.github.io/
GitHub:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar
论文:https://arxiv.org/pdf/2505.20156
在线体验:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126