📰 正文
SAM Audio 是 Meta 最新发布的 通用声音分离 AI 模型。 它可以理解并“分割”复杂音频中的任意声音元素,比如:
🎸 一键提取歌曲中的吉他或人声;
🚗 过滤户外视频的交通噪音;
🐶 去除播客录音里的狗叫声。
这意味着 ——
“就像 Photoshop 能抠图,SAM Audio 能‘抠声音’。”
想象你拍了一段街头视频,背景有:
人声 + 车声 + 风声 + 狗叫声 + 音乐
现在,用 SAM Audio,只要告诉它:
“只保留人说话的声音”, 或者点一下视频中说话的人, AI 就能瞬间把那部分声音提取出来,干净到像魔法一样。✨
不需要专业混音知识,也不必安装复杂软件。 它能像图像“抠图”那样“抠声音”—— 真正让音频剪辑“像文字和图片一样简单”。
SAM Audio 的三大技术创新
AM Audio 属于 Meta 的 Segment Anything 系列(SAM Collection)。 这个系列最初从 图像分割(SAM for images) 开始,允许用户在图像上点击或输入文字即可分离出任意物体。
而现在,Meta 将这一“可分割一切”的理念扩展到音频领域。
SAM Audio 代表了该系列的 多模态延伸:
视觉 + 听觉 + 文本 三种输入方式 → 全面理解并操作多媒体内容。
Meta 表示,SAM Audio 是首个统一的多模态声音分割模型,支持三种“提示方式(prompting)”,使声音编辑更加直观、精准:
可以组合使用,比如:
“在 0:30–1:00 之间,提取女声。”
这些提示方式可以单独使用,也可以任意组合,让创作者能够精准控制音频分离的细节。
Text prompting: Type “dog barking” or “singing voice” to extract specific sounds. 文本提示:输入"狗叫声"或"唱歌声"等文字来提取特定的声音。
Visual prompting: Click on the person or object in the video that’s making a sound to isolate their audio. 视觉提示:点击视频中发出声音的人或物体来隔离其音频。
Span prompting: An industry first, this method lets you mark time segments where target audio occurs. 跨度提示:这是行业首创的方法,让你可以标记目标音频出现的时间段。
核心技术架构
🧩 1. Perception Encoder Audiovisual (PE-AV) —— SAM Audio 的“大脑与耳朵”
PE-AV 是 SAM Audio 的核心引擎, 基于 Meta 早前开源的 Perception Encoder 模型拓展而来。
✳️ 功能:
同时理解视觉帧与音频信号;
建立“看见的画面”和“听到的声音”之间的时间对应;
让模型在分离声音时知道“谁在发声、从哪里发出”。
🧠 比喻:
PE-AV 就像 “耳朵 + 大脑”:它听见声音,同时看到是谁发出的声音。
🧪 技术细节:
使用 多模态对比学习 (Multimodal Contrastive Learning);
训练数据规模:超过 1 亿条视频;
核心组件:
PyTorchVideo(高效视频处理)
FAISS(语义检索)
Transformer 主干网络
输出:时间对齐的语义特征(time-aligned semantic features),用于多模态分离任务。
🌀 2. 模型架构:基于生成式扩散变换器(Flow-Matching Diffusion Transformer)
SAM Audio 使用一种生成式框架:
将音频混合信号 + 提示信息编码为共享表征;
再通过扩散生成机制输出:
🎯 目标音频轨(目标声源);
🌀 残余音轨(背景或剩余声音)。
此外,Meta 建立了一个庞大的数据引擎, 通过:
自动合成音频混合数据;
自动生成文本与时间提示;
伪标签化(pseudo-labeling); 来训练模型,以确保其在真实世界音频中具备强泛化能力。
应用场景与潜在影响
Meta 强调,SAM Audio 将改变音频与视频编辑的工作流程,适用范围极广:
“以前的音频分离工具往往针对单一场景(如人声消除), SAM Audio 是第一个像人一样思考声音结构的 AI 模型。”
如何体验与下载
🧪 在线体验:可在 Segment Anything Playground 平台上试用; 用户可选择 Meta 提供的音频/视频素材,或上传自己的文件进行测试。
💾 模型开放下载:SAM Audio 模型可供开发者和研究者自由下载使用。
Meta 表示:“SAM Audio 是目前为止我们认为最强的音频分离模型。”
详细介绍:https://ai.meta.com/blog/sam-audio/