📰 正文

支付宝发布 EchoMimicV2 ,从仅支持头部驱动的动画扩展到 半身动画(包括头部、手势和上身动作)。

支持通过音频驱动半身人体动画生成。通过输入一段音频、一张参考图片以及简单的手势序列,它可以生成包含 头部、手势和上半身动作 的动态视频。系统结合音频和动作的特征,生成自然、流畅且高度同步的半身动画。

适用于虚拟主播、视频制作、动画生成等场景,能够让角色的动作与语音高度匹配,表现生动自然。

相较现有方法的优势:

输入要求更简化:相比传统的基于动作驱动或音频驱动的方法,输入条件更简单,使用更灵活。只需要一张参考图、一段音频和一些手势,就能生成高质量的动画,不用复杂的额外输入。

更高的动画质量:在定量和定性评估中均表现优异。

适用场景广泛:支持中英文音频驱动,适应多语言、多场景需求。

EchoMimicV1 介绍:

EchoMimicV2 的更新

相比之前的版本,EchoMimicV2 在以下几个方面做了重要升级:


  1. 从“只动头”到“半身动画”

更新内容:不再局限于只控制头部表情,现在可以生成包含头部、手势和上半身动作的半身动画。

好处:让人物的动作更加生动自然,更贴近真实的人类表现,比如虚拟主播可以用手势配合说话。


  1. 动作与声音匹配更精准

更新内容:

加入了 音频和动作动态融合 技术,让动作和声音的同步更加流畅。

声音中的语气和节奏也能体现在手势和表情变化中。

好处:人物的动作和说话的内容更贴合,看起来更真实。


  1. 解决数据不够的问题

更新内容:通过 头部数据的部分注意力机制,在训练时用头部数据弥补半身数据的不足。

好处:即使没有很多半身动作的数据,也能训练出一个很厉害的模型,省去额外采集数据的麻烦。


  1. 动画生成更细腻

更新内容:引入了 分阶段优化损失 的方法,分别针对动作流畅、表情细节和画面质量进行改进。

好处:生成的动画不仅动作自然,表情也很丰富,整体画面更干净,看不到明显的瑕疵。


  1. 输入更简单

更新内容:去掉了很多复杂的条件,只需要一张参考图片、音频和简单的手势序列就可以生成动画。

好处:操作更容易,对普通用户和开发者都更友好。


EchoMimicV2 技术亮点

image 1.

音频-动作动态协调策略 (Audio-Pose Dynamic Harmonization):

动作采样 (Pose Sampling):通过对手势序列进行优化采样,确保半身动作的连贯性和自然表现。

音频扩散 (Audio Diffusion):结合音频信号生成更精准的动作细节,使音频内容与动画动作高度一致。

头部部分注意力机制 (Head Partial Attention):

针对半身数据稀缺的问题,将头部特征数据无缝集成到训练框架中。训练阶段使用头部数据优化模型,但推理阶段无需提供头部特定输入,从而降低使用门槛。

阶段特定去噪损失 (Phase-Specific Denoising Loss):

针对动画生成过程分阶段设计损失函数:

运动动态优化:生成流畅且具有表现力的动作轨迹。

细节增强:提升面部表情与手势的真实感。

低层次画质改进:确保最终视频画质的稳定性与清晰度。

轻量化设计:

通过减少冗余条件注入模块和优化模型架构,显著降低计算资源消耗,使其易于集成到实际应用中。

image

项目地址及演示:https://antgroup.github.io/ai/echomimic_v2/

技术报告:https://arxiv.org/pdf/2411.10061

GitHub:https://github.com/antgroup/echomimic_v2

模型:https://huggingface.co/BadToBest/EchoMimicV2


来源:EchoMimicV2 :可以通过一张图片+音频生成半身动画数字人 视频