📰 正文
FoleyCrafter 是一个能够为无声视频生成同步且逼真的声音效果的开源系统。用于自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。它可以根据视频内容生成相关的声音,比如在视频里看到狗,FoleyCrafter 就会生成狗叫的声音。
它利用了一个预训练的文本到音频模型,并通过两个关键部分来实现这一目标:语义适配器和时间控制器。
语义适配器确保生成的声音与视频内容语义相关,而时间控制器则确保声音与视频的时间精确同步。
该系统可以通过文本提示来生成多样化的声音效果,适用于电影、游戏等领域。实验结果表明,FoleyCrafter 在生成高质量和精确同步的声音方面表现优异。
生成高质量声音:
FoleyCrafter 可以为视频生成清晰、逼真的声音效果,不再需要人工添加声音。
声音与视频内容匹配:
它可以根据视频内容生成相关的声音,比如在视频里看到狗,FoleyCrafter 就会生成狗叫的声音。
声音与视频同步:
FoleyCrafter 确保声音和视频是同步的,比如你在视频里看到一个门被关上,声音也会在同一时间出现。
用文字控制声音:
你可以用文字描述来生成声音,比如你输入“海浪声”,FoleyCrafter 就会生成海浪的声音。
适用于不同类型的视频:
不管是电影、动画还是游戏视频,FoleyCrafter 都能生成合适的声音效果,提升观众的体验。
操作简单:
只需提供视频和简单的文字描述,FoleyCrafter 就能自动生成你需要的声音效果。
工作原理
FoleyCrafter 通过预训练的文本到音频生成模型,结合语义适配器和时间控制器,实现高质量、语义对齐和时间同步的声音生成。
FoleyCrafter 基于一个预训练的文本到音频生成器,主要由两个组件组成: 1.
语义适配器(Semantic Adapter, S.A.):利用并行的交叉注意力层将音频生成与视频特征对齐。
时间控制器(Temporal Controller):包括一个起始检测器和一个基于时间戳的适配器,用于精确同步。
技术方法
预训练的文本到音频生成模型:
FoleyCrafter 的核心是一个预训练的文本到音频(Text-to-Audio, T2A)生成模型。这个模型可以根据文本描述生成高质量的音频。
模型在大量的音频数据上进行了训练,确保生成的音频效果逼真且清晰。
语义适配器(Semantic Adapter):
语义适配器负责将视频特征与音频生成过程相结合。具体来说,它通过并行的交叉注意力层,将视频帧的特征与音频生成器对齐。
使用视觉编码器(例如 CLIP 编码器)提取视频帧的特征,然后将这些特征映射到与文本特征相似的空间,以便与文本到音频生成模型结合。
时间控制器(Temporal Controller):
时间控制器确保生成的音频与视频的时间同步。它包含两个主要部分:起始检测器(Onset Detector)和基于时间戳的适配器(Timestamp-based Adapter)。
起始检测器:分析视频帧,预测声音事件的开始和结束时间点(例如,什么时候应该有声音,什么时候应该安静)。
时间戳适配器:根据预测的时间戳调整音频生成过程,确保声音与视频中的事件精确对齐。
训练过程:
在训练过程中,语义适配器和时间控制器会根据视频和对应的音频进行优化,而预训练的文本到音频模型的权重保持不变。
这种方式保证了模型的音频生成质量,同时增强了与视频内容的对齐和同步能力。
具体步骤
视频特征提取:
使用视觉编码器(如 CLIP)从视频中提取帧特征。
将这些特征通过可训练的投影层映射到文本特征空间。
语义对齐:
将映射后的视频特征输入语义适配器,通过并行的交叉注意力层,与文本特征一同输入音频生成模型,生成与视频内容相关的音频。
时间同步:
起始检测器预测视频中声音事件的时间点。
时间戳适配器根据这些时间点调整音频生成的时间轴,确保声音与视频同步。
一些案例
动漫音频合成
Sora 视频的音频合成
真实视频VS音频自动合成对比
使用 FoleyCrafter 等系统,根据 VGGSound 数据集中的视频内容生成对应的音频。
VGGSound 是一个大规模的音频-视觉数据集,包含来自 YouTube 的各种视频片段。这些视频涵盖了广泛的主题和场景,包括人类活动、动物、自然环境等。每个视频都包含同步的音频和视觉信息。
真实视频 生成的音频
音频合成与视觉提示时间对齐
确保生成的音频与视频中的视觉事件(如动作、场景变化等)在时间上是同步的。例如,视频中开枪的声音,音频应该在开枪的一刹那发生,而不是提前或延后。
这种对齐是通过FoleyCrafter的时间控制器(Temporal Controller)实现的,时间控制器通过预测声音事件的时间点,并根据这些时间点调整音频生成过程,从而确保声音与视频同步。
真实视频 生成的音频
根据文本提示开控制音频音效
项目及演示:https://foleycrafter.github.io/
论文:https://arxiv.org/pdf/2407.01494
GitHub:https://github.com/open-mmlab/foleycrafter
在线体验: