FoleyCrafter：精准的为无声视频自动配音 自动生成同步且逼真的声音

📰 正文

FoleyCrafter 是一个能够为无声视频生成同步且逼真的声音效果的开源系统。用于自动生成与视频同步的高质量音效，从而实现身临其境的视听体验。它可以根据视频内容生成相关的声音，比如在视频里看到狗，FoleyCrafter 就会生成狗叫的声音。

它利用了一个预训练的文本到音频模型，并通过两个关键部分来实现这一目标：语义适配器和时间控制器。

语义适配器确保生成的声音与视频内容语义相关，而时间控制器则确保声音与视频的时间精确同步。

该系统可以通过文本提示来生成多样化的声音效果，适用于电影、游戏等领域。实验结果表明，FoleyCrafter 在生成高质量和精确同步的声音方面表现优异。

生成高质量声音：

FoleyCrafter 可以为视频生成清晰、逼真的声音效果，不再需要人工添加声音。

声音与视频内容匹配：

它可以根据视频内容生成相关的声音，比如在视频里看到狗，FoleyCrafter 就会生成狗叫的声音。

声音与视频同步：

FoleyCrafter 确保声音和视频是同步的，比如你在视频里看到一个门被关上，声音也会在同一时间出现。

用文字控制声音：

你可以用文字描述来生成声音，比如你输入“海浪声”，FoleyCrafter 就会生成海浪的声音。

适用于不同类型的视频：

不管是电影、动画还是游戏视频，FoleyCrafter 都能生成合适的声音效果，提升观众的体验。

操作简单：

只需提供视频和简单的文字描述，FoleyCrafter 就能自动生成你需要的声音效果。

工作原理

FoleyCrafter 通过预训练的文本到音频生成模型，结合语义适配器和时间控制器，实现高质量、语义对齐和时间同步的声音生成。

FoleyCrafter 基于一个预训练的文本到音频生成器，主要由两个组件组成： 1.

语义适配器（Semantic Adapter, S.A.）：利用并行的交叉注意力层将音频生成与视频特征对齐。

时间控制器（Temporal Controller）：包括一个起始检测器和一个基于时间戳的适配器，用于精确同步。

技术方法

预训练的文本到音频生成模型：

FoleyCrafter 的核心是一个预训练的文本到音频（Text-to-Audio, T2A）生成模型。这个模型可以根据文本描述生成高质量的音频。

模型在大量的音频数据上进行了训练，确保生成的音频效果逼真且清晰。

语义适配器（Semantic Adapter）：

语义适配器负责将视频特征与音频生成过程相结合。具体来说，它通过并行的交叉注意力层，将视频帧的特征与音频生成器对齐。

使用视觉编码器（例如 CLIP 编码器）提取视频帧的特征，然后将这些特征映射到与文本特征相似的空间，以便与文本到音频生成模型结合。

时间控制器（Temporal Controller）：

时间控制器确保生成的音频与视频的时间同步。它包含两个主要部分：起始检测器（Onset Detector）和基于时间戳的适配器（Timestamp-based Adapter）。

起始检测器：分析视频帧，预测声音事件的开始和结束时间点（例如，什么时候应该有声音，什么时候应该安静）。

时间戳适配器：根据预测的时间戳调整音频生成过程，确保声音与视频中的事件精确对齐。

训练过程：

在训练过程中，语义适配器和时间控制器会根据视频和对应的音频进行优化，而预训练的文本到音频模型的权重保持不变。

这种方式保证了模型的音频生成质量，同时增强了与视频内容的对齐和同步能力。

具体步骤

视频特征提取：

使用视觉编码器（如 CLIP）从视频中提取帧特征。

将这些特征通过可训练的投影层映射到文本特征空间。

语义对齐：

将映射后的视频特征输入语义适配器，通过并行的交叉注意力层，与文本特征一同输入音频生成模型，生成与视频内容相关的音频。

时间同步：

起始检测器预测视频中声音事件的时间点。

时间戳适配器根据这些时间点调整音频生成的时间轴，确保声音与视频同步。

一些案例

动漫音频合成

Sora 视频的音频合成

真实视频VS音频自动合成对比

使用 FoleyCrafter 等系统，根据 VGGSound 数据集中的视频内容生成对应的音频。

VGGSound 是一个大规模的音频-视觉数据集，包含来自 YouTube 的各种视频片段。这些视频涵盖了广泛的主题和场景，包括人类活动、动物、自然环境等。每个视频都包含同步的音频和视觉信息。

          真实视频                                                                                                        生成的音频

音频合成与视觉提示时间对齐

确保生成的音频与视频中的视觉事件（如动作、场景变化等）在时间上是同步的。例如，视频中开枪的声音，音频应该在开枪的一刹那发生，而不是提前或延后。

这种对齐是通过FoleyCrafter的时间控制器（Temporal Controller）实现的，时间控制器通过预测声音事件的时间点，并根据这些时间点调整音频生成过程，从而确保声音与视频同步。

          真实视频                                                                                                        生成的音频

根据文本提示开控制音频音效

项目及演示：https://foleycrafter.github.io/

论文：https://arxiv.org/pdf/2407.01494

GitHub：https://github.com/open-mmlab/foleycrafter

在线体验：

来源：FoleyCrafter：精准的为无声视频自动配音自动生成同步且逼真的声音

📰 正文#

📰 正文