📰 正文

LatentSync 是什么?

LatentSync 是字节跳动开发的一种工具,用来生成嘴巴和声音完美同步的视频。

它可以根据音频输入,自动调整视频中角色的嘴型,实现精准的口型同步。

直接用声音驱动嘴巴的动作,不需要复杂的中间步骤。

提出了一种“时间对齐”的技术,专门解决画面可能会跳动或不一致的问题。

提供了全套工具,可以轻松处理视频和音频,比如调整帧数、检测人脸、去除质量差的视频,保证最终生成的视频效果很好。

简单来说,它能根据音频,自动调整视频中角色的嘴型,让声音和画面看起来自然、真实。


上面是原视频 下面是根据音频进行唇形同步的视频效果

LatentSync 的主要特点

让嘴型和声音完美匹配:

它直接用声音来驱动嘴巴的动作,不需要复杂的中间步骤,生成效果很快。

视频更流畅:

为了让视频每一帧都衔接得更自然,它设计了一个叫“时间对齐”(TREPA)的技术,专门解决画面可能会跳动或不一致的问题。

支持多种视频类型:

无论是拍真人的视频,还是动画人物的视频,它都可以让嘴型和声音同步得非常自然。

上面是原视频 下面是根据音频进行唇形同步的视频效果

一键处理视频数据:

提供了全套工具,可以轻松处理视频和音频,比如调整帧数、检测人脸、去除质量差的视频,保证最终生成的视频效果很好。

开箱即用:

它已经内置了很多“训练好的模型”(预训练模型),用户只需要简单运行命令,就可以直接用来生成或测试效果。

高度可定制:

用户还可以用自己的数据重新训练模型,让它更适合自己的项目。

上面是原视频 下面是根据音频进行唇形同步的视频效果

LatentSync 的核心技术方法

LatentSync 使用多项前沿技术,确保唇形同步的高精度和流畅性,以下是它的主要技术方法:

image

  1. 潜在扩散模型(Latent Diffusion Models)

LatentSync 基于潜在扩散模型,利用 Stable Diffusion 强大的生成能力,通过音频特征直接控制嘴巴动作。相比传统依赖像素级扩散或两阶段生成的方法,LatentSync 更高效且效果更好。

技术优势:

直接在“潜在空间”中建模音频和视觉的关联。

降低计算复杂度,同时保留高质量输出。


  1. 时间表示对齐(Temporal REPresentation Alignment, TREPA)

为了解决视频生成过程中时间不一致的问题,LatentSync 引入 TREPA 技术,通过大规模自监督视频模型提取的时间特征,对生成帧和真实帧进行对齐。

技术原理:

使用时间特征对生成的视频帧进行优化,使嘴型动作衔接流畅。

保证在长时间视频中,唇形与声音保持一致。


  1. 音频嵌入(Audio Embedding)

LatentSync 使用 OpenAI 的 Whisper 模型,将音频(melspectrogram)转换为嵌入特征,这些嵌入特征通过跨注意力机制(Cross-Attention)输入到 U-Net 模型中。

步骤:

音频转换:将语音信号转为可分析的嵌入。

特征融合:通过注意力机制,将音频特征和视频特征结合。


  1. 多重损失函数

LatentSync 在训练过程中结合了多种损失函数,确保生成视频的质量和唇形准确性。

TREPA 损失:保证时间一致性。

LPIPS 损失:提升视觉质量,避免生成帧的模糊或失真。

SyncNet 损失:确保嘴型和声音的同步。


  1. 数据处理管道

提供完整的数据预处理流程,确保训练和推理阶段的数据质量:

音频和视频重采样:将音频调整为 16kHz,视频调整为 25 帧每秒。

人脸检测与对齐:对视频中的人脸进行标记和标准化处理。

视频质量筛选:去除模糊、不清晰或嘴型不符合的视频片段。


  1. U-Net 和 SyncNet 的结合

U-Net:主要用于视频生成,将音频和视频特征结合,生成嘴型匹配的视频。

SyncNet:作为辅助网络,用于监督唇形同步,保证嘴型动作与声音的一致性。


  1. 端到端框架

LatentSync 提供了一个完整的端到端解决方案,从音频到最终视频生成都在一个系统内完成,避免了中间复杂的步骤。

实验结果

LatentSync 在多个数据集和任务上进行了评估,实验结果展示了其在唇形同步、时间一致性以及视觉质量方面的优势。

真实视频:人物嘴型和音频完全同步,适用于影视后期制作。

动画视频:在动漫角色中表现优秀,嘴型自然,不突兀。

对比视频:LatentSync 生成的视频明显比传统方法流畅且逼真。

上面是原视频 下面是根据音频进行唇形同步的视频效果

测试结果

唇形同步准确性:

在 VoxCeleb2 数据集上,LatentSync 达到了 94% 的 SyncNet 准确率,显著高于传统方法。

通过调整指导尺度(guidance scale),进一步提升了嘴型和语音的匹配效果。

时间一致性:

相比传统扩散模型,LatentSync 的时间一致性有了显著提高,帧间跳动现象减少。

TREPA 的引入使得生成的视频流畅性增加了约 15%。

视觉质量:

在 LPIPS 指标上,LatentSync 的得分明显优于基线模型,生成帧的细节更丰富,模糊现象减少。


消融实验

对 LatentSync 的各个模块进行了消融实验,以验证其重要性:

无 TREPA 模块:

时间一致性下降,视频中出现帧与帧不连贯的问题。

无音频嵌入(Whisper 模型):

唇形同步准确性显著下降,说明音频嵌入对生成嘴型至关重要。

无多重损失函数(仅使用单一损失):

视频质量和唇形同步表现均下降,尤其在复杂的音频条件下效果不稳定。


与其他方法的对比

基线模型:

与像素空间扩散模型和两阶段生成方法相比,LatentSync 的准确性、流畅性均有显著提升。

优点总结:

唇形同步提升:+12%

时间一致性提升:+15%

视觉质量提升:+10%

GitHub:https://github.com/bytedance/LatentSync

论文:https://arxiv.org/pdf/2412.09262


来源:LatentSync :根据音频输入自动调整视频中角色的嘴型 实现精准的口型同步