📰 正文
Hibiki 是一个实时语音翻译系统,可以在你说话的同时,立刻把语音翻译成另一种语言,并用自然的语音播放出来,不需要等到你说完整句话。
与传统的离线翻译不同,Hibiki 可以实时逐步生成目标语言的语音,而无需等待源语言句子完全结束,支持**语音传输(voice transfer)**及文本翻译。
目前仅支持法语 → 英语,未来扩展到更多语言。
主要特点
流式翻译:Hibiki 边听边翻译,不像传统翻译那样等到整个句子结束后再翻译。
语音保持:翻译后,Hibiki 还能保留你的声音音色,让听起来更像你自己在说。
实时文本翻译:除了语音翻译,还会生成同步的文本翻译,带有时间戳。
可在手机上运行:Hibiki 有一个轻量版 Hibiki-M,可以在手机上本地运行。
案例展示
这个例子来自一段幽默视频。源音频故意使用高音调,这是展示 Hibiki 如何很好地复制音调和韵律的一个好例子,并且它对背景噪音的鲁棒性很强,因为没有对输入 Hibiki 的音频进行降噪处理。
Hibiki-M 是一个小型化版本,仅1.7B 参数,可在移动设备上实时运行。例如,在 iPhone 16 Pro 上,Hibiki-M 可连续运行超过 1 分钟。
它是如何工作的?
Hibiki 基于 Moshi 语言模型,采用多流音频-文本处理架构,同时预测目标语音的离散音频 token,确保翻译的流畅性和连贯性。其核心技术 “内在独白”机制(Inner Monologue) 可优化文本翻译,并作为语音翻译的支撑结构。
Hibiki 使用 AI 训练,学习不同语言之间的语音匹配关系。
它的训练数据来自:
人工标注的语音翻译数据(但很少)。
AI 合成的翻译语音(用 TTS 技术生成)。
翻译时,Hibiki 采用了一种“智能对齐”策略,确保翻译既准确又自然。
多流音频-文本处理架构
Hibiki 采用 Moshi 语言模型 的多流处理机制,能够同时预测输入语音的文本翻译和目标语音的音频表示:
通过 Transformer 预测离散音频 token(Discrete Audio Tokens),从而生成目标语音。
采用 Moshi 的“内在独白”机制(Inner Monologue),在生成目标语音的同时生成目标文本,以确保翻译内容准确。
这种方法与 传统的级联(Cascade)方法 不同:
传统级联方法:依次执行 ASR(自动语音识别) → MT(机器翻译) → TTS(文本转语音),容易累积错误,导致翻译不准确,流畅度下降。
Hibiki 端到端方法:直接从 源语音 → 目标语音,避免了中间文本转换的误差,大幅提高翻译质量。
“内在独白”(Inner Monologue)机制
Hibiki 采用 Moshi 提出的“内在独白”机制(Inner Monologue),即:
在预测音频 tokens(目标语音)时,同时生成文本 tokens(目标文本)。
文本翻译作为支撑结构,优化语音预测。
🌟 关键优势 1.
文本翻译优化:
Hibiki 生成目标语音时,同时生成目标文本,可以用于对齐检查和翻译优化。
这种机制确保文本和语音同步,提高可读性和理解度。
语音流畅度提升:
文本 tokens 作为翻译支撑结构,提供上下文信息,帮助模型更流畅地预测目标语音的音频 tokens。
避免语音输出时的卡顿、不自然停顿或语义错误,使翻译更加连贯。
Hibiki 运行时,仅需 Transformer 采样(Temperature Sampling),这种方式兼容实时推理,同时支持 批处理(batching),提升计算效率。
🎯 Hibiki 训练方法
1️⃣ 训练数据
挑战:传统的翻译数据通常是文本对齐的,而 Hibiki 需要语音数据对齐。
解决方案:
生成合成数据(Synthetic Data):
使用文本翻译模型(MADLAD)进行对齐,确保翻译过程流畅。
在目标语音中插入合理的静音,以保证同步性。
优化音色匹配:
采用**TTS(文本转语音)**生成翻译语音,匹配原说话人音色,提高翻译后的语音相似度。
2️⃣ 训练步骤
文本预训练:
在多语言数据(Common Crawl、Wikipedia 等)上训练 Transformer 进行文本预测。
音频预训练:
使用单语言语音数据训练模型,使其能处理语音输入。
语音翻译训练:
采用40,000+ 小时的法语-英语语音数据,训练流式语音翻译模型。
微调(Fine-Tuning):
在900 小时高质量合成数据上微调,提高翻译的自然度和语音相似度。
Hibiki-M 轻量化:
训练一个较小版本的模型,可以在智能手机上本地运行。
🔬 关键技术
1️⃣ 上下文对齐(Contextual Alignment)
问题:传统的翻译模型可能会提前生成错误翻译,或者翻译延迟过大。
解决方案:
使用文本翻译模型(MADLAD)计算翻译不确定性,选择最佳的翻译时机。
通过插入静音或TTS 重新合成来优化同步性。
2️⃣ 语音编码(Neural Audio Codec)
采用 Mimi 编码器(一种神经音频编解码器)将语音转换成低帧率的离散 tokens,再进行翻译。
3️⃣ 语音传输优化(Voice Transfer)
训练过程中:
通过条件训练(Conditional Training),引导模型学习音色相似度。
采用Classifier-Free Guidance 调节音色,使翻译后语音更加接近原说话人。
📊 结果分析
Hibiki 在 CVSS 基准测试和新长文本翻译评测中表现优越:
自动评测(BLEU 分数)表明其翻译质量优于现有模型。
人工评测(翻译质量、自然度、说话人相似度)显示其接近人类口译员的水平。
Hibiki 在法语 → 英语的流式语音翻译任务中,超越了以往最先进的模型,包括: 1.
翻译质量(Translation Quality):
ASR-BLEU 分数:Hibiki 达到 38.2,优于 StreamSpeech (26.4) 和 Seamless (37.0)。
音色相似度(Speaker Similarity):
Hibiki:0.41,显著高于 Seamless (0.30)。
自然度(Naturalness):
Hibiki 得分接近人类专业口译员,优于 Seamless。
推理速度(Inference Speed):
支持批量翻译(batching),可以在 GPU 上同时处理 100+ 句子,比 Seamless 和 StreamSpeech 更高效。
Hibiki-M 轻量版可以在 iPhone 16 Pro 上实时运行,适用于移动端应用。
GitHub:https://github.com/kyutai-labs/hibiki
论文:https://arxiv.org/pdf/2502.03382
模型:https://huggingface.co/kyutai
案例演示:https://huggingface.co/spaces/kyutai/hibiki-samples