EchoMimicV2 ：可以通过一张图片+音频生成半身动画数字人 视频

📰 正文

支付宝发布 EchoMimicV2 ，从仅支持头部驱动的动画扩展到半身动画（包括头部、手势和上身动作）。

支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列，它可以生成包含头部、手势和上半身动作的动态视频。系统结合音频和动作的特征，生成自然、流畅且高度同步的半身动画。

适用于虚拟主播、视频制作、动画生成等场景，能够让角色的动作与语音高度匹配，表现生动自然。

相较现有方法的优势：

输入要求更简化：相比传统的基于动作驱动或音频驱动的方法，输入条件更简单，使用更灵活。只需要一张参考图、一段音频和一些手势，就能生成高质量的动画，不用复杂的额外输入。

更高的动画质量：在定量和定性评估中均表现优异。

适用场景广泛：支持中英文音频驱动，适应多语言、多场景需求。

EchoMimicV1 介绍：

EchoMimicV2 的更新

相比之前的版本，EchoMimicV2 在以下几个方面做了重要升级：

更新内容：不再局限于只控制头部表情，现在可以生成包含头部、手势和上半身动作的半身动画。

好处：让人物的动作更加生动自然，更贴近真实的人类表现，比如虚拟主播可以用手势配合说话。

更新内容：

加入了音频和动作动态融合技术，让动作和声音的同步更加流畅。

声音中的语气和节奏也能体现在手势和表情变化中。

好处：人物的动作和说话的内容更贴合，看起来更真实。

更新内容：通过头部数据的部分注意力机制，在训练时用头部数据弥补半身数据的不足。

好处：即使没有很多半身动作的数据，也能训练出一个很厉害的模型，省去额外采集数据的麻烦。

更新内容：引入了分阶段优化损失的方法，分别针对动作流畅、表情细节和画面质量进行改进。

好处：生成的动画不仅动作自然，表情也很丰富，整体画面更干净，看不到明显的瑕疵。

更新内容：去掉了很多复杂的条件，只需要一张参考图片、音频和简单的手势序列就可以生成动画。

好处：操作更容易，对普通用户和开发者都更友好。

EchoMimicV2 技术亮点

音频-动作动态协调策略 (Audio-Pose Dynamic Harmonization)：

动作采样 (Pose Sampling)：通过对手势序列进行优化采样，确保半身动作的连贯性和自然表现。

音频扩散 (Audio Diffusion)：结合音频信号生成更精准的动作细节，使音频内容与动画动作高度一致。

头部部分注意力机制 (Head Partial Attention)：

针对半身数据稀缺的问题，将头部特征数据无缝集成到训练框架中。训练阶段使用头部数据优化模型，但推理阶段无需提供头部特定输入，从而降低使用门槛。

阶段特定去噪损失 (Phase-Specific Denoising Loss)：

针对动画生成过程分阶段设计损失函数：

运动动态优化：生成流畅且具有表现力的动作轨迹。

细节增强：提升面部表情与手势的真实感。

低层次画质改进：确保最终视频画质的稳定性与清晰度。

轻量化设计：

通过减少冗余条件注入模块和优化模型架构，显著降低计算资源消耗，使其易于集成到实际应用中。

项目地址及演示：https://antgroup.github.io/ai/echomimic_v2/

技术报告：https://arxiv.org/pdf/2411.10061

GitHub：https://github.com/antgroup/echomimic_v2

模型：https://huggingface.co/BadToBest/EchoMimicV2