📰 正文

音频驱动的人类动画(Audio-driven Human Animation)近年来发展迅速,特别是在 语音驱动头像说话视频生成 和 全身动画生成 两大方向。

然而,现有方法面临以下核心挑战:

image

腾讯混元团队 提出了一种方法来解决以上问题:HunyuanVideo-Avatar

HunyuanVideo-Avatar是一个基于多模态扩散Transformer (MM-DiT) 的音频驱动视频生成框架。

它可以在输入一张人物图像与一段音频的条件下:

生成自然生动的面部和肢体动作;

精准还原音频情绪与语调;

支持多个角色各自响应各自的音频,实现“群像对话”。

主要功能

🎭 情绪可控的虚拟人动画生成:输入角色图像 + 音频,可生成情绪同步的口型与表情动画。

👯‍♂️ 支持多角色动画生成:实现多个虚拟人独立说话并表现各自情绪。

🖼️ 多风格图像支持:支持真实照片、卡通、3D、拟人角色等图像风格。

📏 多尺度生成:支持肖像、半身、全身图像。

模型型核心架构概览

HunyuanVideo-Avatar 建立在腾讯自研的多模态扩散Transformer(MM-DiT)架构之上,整套系统由三大核心模块组成:

image


1️⃣ 角色图像注入模块(Character Image Injection Module)

目的: 提高人物在视频中的一致性,同时保持动作自然、不僵硬。

问题来源:

传统做法在生成视频时用“参考图像”控制人物身份,但这种方式往往导致“动作不自然”、“训练与推理不一致”等问题。

解决方式:

提出一种通道级特征注入方法:将图像的特征编码后,通过加法融合注入到视频生成模块中。

同时进行空间位置的偏移,使模型不会直接“复制”图像内容,而是学会在保持一致性的同时生成新的姿态和动作。

特点:

不需多视角、多帧视频,仅需单张图像即可驱动;

输出视频包含唇动、表情、头部与身体动作;

动作自然,表情真实,不“僵硬”。


2️⃣ 音频情绪模块(Audio Emotion Module)

目的: 让视频中的角色表情能准确反映音频中的情绪信息。

做法:

用户可提供一个情绪参考图像(例如“愤怒的人脸”),系统将其编码成特征;

然后使用 空间注意力机制(cross-attention) 将该情绪特征注入到视频latent中;

整个过程会根据音频内容调节情绪在视频中的表达方式,使最终输出更具“情感表现力”。

特点:

可通过情绪参考图像,指导模型生成特定情绪的表情;

情绪控制精细化,面部肌肉动态自然协调;

支持情绪在视频中随语音波动。


3️⃣ 面部区域音频适配器(Face-Aware Audio Adapter)

目的: 支持多人物独立驱动,实现一个场景中多个角色对话。

关键点:

给不同角色分别加上“面部掩码(face mask)”;

在潜空间中只对被激活面部区域进行音频注入;

避免多个角色同时受同一段音频影响,从而实现“角色分离”。

好处: 这个机制允许每个角色“各说各话”,而不会互相干扰。

特点:

每个角色可以由独立的音频驱动;

音频只作用于指定角色,避免“串音”;

实现角色级别音频分离与控制;

可生成群像对话、访谈、演讲等复杂场景。


4️⃣ 长视频生成机制(Time-Aware Position Shift Fusion)

问题: 现有基础模型只能生成129帧,无法处理长音频。

解决方案:

借鉴 Sonic 的方法,在生成视频时使用“滑动窗口 + 时间偏移”方式进行拼接;

每一段视频与上段有“上下文衔接区”,从而实现视频的连续、自然衔接。

特点:

采用时间偏移融合机制(Time-Aware Position Shift);

视频帧之间过渡平滑,无明显跳帧、断裂;

支持与完整语音长段进行持续生成。

5️⃣ 角色一致性与身份保持(Character Consistency)

无论生成多少帧,人物形象保持不变,不“崩脸”、“走形”。

✨ 特点:

图像注入机制确保视频中人物外观与输入图像高度一致;

支持保持背景不变、衣着、风格统一;

可以用于卡通、油画、素描、真人等多种风格图像。


📊 实验验证与表现

📁 数据集

使用大规模音频-视频训练数据(约500,000条,累计1250小时),经严格筛选,保证同步性和质量。

测试集包括公开人脸数据集(CelebV-HQ, HDTF)和自建全身动画数据集。

📏 评估指标

IQA/ASE/FID/FVD:衡量画质、动态表现、自然度;

Sync-C:评估音视频同步程度;

用户打分(主观评价):包括身份一致性、唇动准确性、面部与身体自然度。

📌 实验结果总结

image

⚠️ 局限与未来方向

❌ 当前局限

情绪识别依赖额外参考图像,不够智能;

推理速度慢,10秒高清视频生成需60分钟;

缺乏交互能力,无法响应用户实时反馈。

✅ 未来展望

加入音频情绪自动识别模块,无需参考图像;

优化推理效率,支持实时合成或边播边生成;

实现实时对话式数字人,支持多轮互动。

项目地址:https://hunyuanvideo-avatar.github.io/

GitHub:https://github.com/Tencent-Hunyuan/HunyuanVideo-Avatar

论文:https://arxiv.org/pdf/2505.20156

在线体验:https://hunyuan.tencent.com/modelSquare/home/play?modelId=126


来源:HunyuanVideo-Avatar :一张人物图像+一段音频生成自然生动的动态视频并精准还原音频情绪和语调