📰 正文
阿里云 Tongyi Fun 团队 发布全新的开源语音大模型 Fun-Audio-Chat ,在实现 自然、低延迟的语音交互(Voice Interaction),专为实现自然、低延迟的语音交互而设计。
你不需要打字,只要用语音对它说话,它就能实时理解、思考、回答你,并用自然流畅的语音回复。
它可以:
回答语音问题(比如“帮我总结这段语音”)
理解语音内容(比如识别情绪、音色、命令)
按语音执行任务(比如“帮我打开音乐”、“拨打电话”)
语音生成语音(你说话它直接“开口”回应)
模拟语音情感(比如开心、温柔、严肃)
它可以完成端到端的语音问答、语音理解、语音函数调用、语音指令执行与语音共情等任务。
该模型的设计目标是: 1.
在低延迟条件下实现自然的语音交互体验;
在保持大语言模型语义理解能力的同时增强语音感知与生成能力;
提供统一框架支持语音→语音、语音→文本等多模态任务。
技术创新
Fun-Audio-Chat 的核心目标是:
在统一的大语言模型框架下,实现自然、实时的语音理解与语音生成。
为此,它引入两个核心创新:
🧩 1. 双分辨率语音表示(Dual-Resolution Speech Representations)
传统语音模型采样频率高(12.5Hz 或 25Hz),虽然声音细节多,但计算量很大、延迟高。 Fun-Audio-Chat 采用了一种聪明的折中方法:
主干部分(5Hz):负责理解语音的“意思”,计算量低;
精细部分(25Hz):负责保留声音细节,让语音听起来自然。
👉 好处:
推理速度快(延迟低)
将 GPU 成本降低约 50%
声音依旧高质量自然
这就像你看电影时,主干剧情是5帧/秒,人物表情用25帧补足,看起来流畅又省资源。
🧪 2. 核心混合训练(Core-Cocktail Training)
它结合了“语音模型”和“文本大模型”的训练方式:
从 文本大模型(LLM) 那里学到理解能力;
从 语音模型 那里学到听觉与说话能力。
👉 这样,它既能像 ChatGPT 一样理解语义,又能像 Siri 一样“听懂说话”。
🔷 3.模型架构
Encoder:把语音转成语义特征(听懂你说啥);
LLM Backbone:理解语义、做推理(想清楚怎么回答);
TTS Head (CosyVoice):把结果转成自然语音(说出来)。
🔄 4.全双工语音交互(Full-Duplex Interaction)
传统语音助手是“单工”的:说完一句 → 等回答。 Fun-Audio-Chat 实现了全双工语音,即边说边听、可打断、可轮换发言。
技术上,它通过: 1.
模拟重叠语音数据;
加入“轮次控制(Turn-taking Control)”信号;
同步语音输入与输出流。
实验显示:
在 Turn-Taking 精度上,Fun-Audio-Chat-Duplex 达到 100%;
响应延迟 < 400ms;
可在语音打断场景中稳定对话。
性能和测试结果
在多个语音理解与对话基准上达到 同类模型最优(SOTA);
在 效率、音质、延迟 三方面取得均衡;
Fun-Audio-Chat-30B-A3B 版本性能与 GPT-Audio、Gemini-2.5-Pro 相当;
Fun-Audio-Chat-8B 版本在开源模型中表现最强。
Fun-Audio-Chat 的 8B 模型在多个公开语音任务上都拿到了同级模型中的最高分
项目及演示:https://funaudiollm.github.io/funaudiochat/
GitHub:https://github.com/FunAudioLLM/Fun-Audio-Chat
技术报告:https://github.com/FunAudioLLM/Fun-Audio-Chat/blob/main/Fun-Audio-Chat-Technical-Report.pdf
模型:https://huggingface.co/FunAudioLLM/Fun-Audio-Chat-8B