📰 正文
阿里巴巴 Qwen 团队发布了全新一代语音合成模型系列 Qwen3-TTS,具备语音克隆、语音设计、超高保真语音生成以及基于自然语言的语音控制等能力,是目前功能最全的开源语音生成系统之一。
该系列基于创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器,实现了高效压缩与鲁棒语音表示,可在轻量架构下快速、逼真地还原人声与声学环境。
它能做到:
🧬 克隆声音:听你说3秒话,就能复刻出你的音色;
🎙️ 自定义音色:你说“来个温柔女声”或“做成热血旁白”,它立刻生成;
🗣️ 自然情绪控制:能听懂文字里的语气,比如“愤怒”、“悲伤”、“调皮”;
🌍 多语言支持:能说中、英、日、韩、法、德、西、俄、葡、意共10种语言;
⚡ 实时响应:输入一个字,它就开始说,延迟低至 97毫秒,几乎实时。
版本配置与性能
两个版本都支持:
流式语音生成(边输入边说)
自然语言控制(直接指令调节语气)
语音克隆与定制音色
主要区别:
技术亮点
🌐 1. 全新语音编码器
用上了一个叫 Qwen3-TTS-Tokenizer-12Hz 的黑科技模块。 它的作用是:
把复杂语音信号压缩成高效编码;
同时保留音色、情绪、背景环境音等细节;
让AI说话更“真”,而且声音不失真。
👉 它相当于给声音做了“高清压缩”,既轻量又保真。
⚡ 2. “Dual-Track” 双通道流式生成
这个机制让 Qwen3-TTS 的响应几乎是实时的:
输入一个字符,它就能马上发声;
整体延迟只有 97ms,比你眨眼还快。
适合应用在:
实时语音助手
游戏NPC对话
直播配音、互动故事
🎨 3. “自然语言控制”真懂你说什么
Qwen3-TTS 不需要复杂参数,只要说人话指令就能调整声音,比如:
「用激动的语气讲一下」 「小声点说,语速慢一点」 「像中年男性播音那样讲」
它就会自己调节语气、节奏和音高,效果自然流畅。 这意味着你不用懂声音工程,也能轻松“导演”AI怎么说话。
🧬 4. 声音克隆只要3秒
你录3秒语音,它就能学会你的声线。 无论你是男是女,说中文还是英文,它都能模仿。 甚至能做到跨语言克隆,比如:
你用中文录音,它能用相同音色说英语或日语!
官方测试显示:
平均识别误差(WER)只有 1.8%
说话人相似度高达 0.79 这意味着几乎可以“以假乱真”。
🧩 5. 多角色对话 & 长音频生成
Qwen3-TTS 不仅能生成一句话,还能生成完整的对话、旁白或广播剧。 例如:
「旁白」语气平稳 「角色A」兴奋 「角色B」紧张
它会自动给每个角色换音色、调整节奏,甚至保持人物一致性, 做一整段“多角色配音剧”完全没问题。
🧏 6. 声音质量(真的很强)
在 InstructTTS-Eval、Seed-tts-eval 等权威测试中,Qwen3-TTS 系列在 指令跟随、表达力、语音稳定性与跨语种能力 上全面超越 MiniMax、SeedTTS、CosyVoice3 与 ElevenLabs 等模型,达到全球开源 TTS 模型的新 SOTA。
具体来说:
音色创造任务上,Qwen3-TTS-VoiceDesign 在 InstructTTS-Eval 中指令遵循能力和生成表现力都整体超越 MiniMax-Voice-Design 闭源模型,并大幅领先其余开源模型。
在音色控制任务上,Qwen3-TTS-Instruct 不仅具备单人多语言的泛化能力,平均词错率 2.34%;同时具备保持音色的风格控制能力,InstructTTS-Eval 取得了 75.4% 的分数;此外,也展现出卓越的长语音生成能力,一次性合成 10 分钟语音的中英词错率为 2.36/2.81%。
在音色克隆任务上,Qwen3-TTS-VoiceClone 在 Seed-tts-eval 上中英文克隆的语音稳定性表现上均超越 MiniMax 和 SeedTTS;在 TTS multilingual test set 上 10 个语项上取得了 1.835% 的平均词错误率和 0.789 的说话人相似度,超越 MiniMax 和 ElevenLabs;跨语种音色克隆也超越 CosyVoice3 位居 SOTA。
使用方式
Qwen3-TTS 已全面开源,可通过以下渠道体验:
💻 GitHub
🤗 HuggingFace 模型页
🌐 ModelScope
☁️ Qwen API 在线接口
📃 技术报告
在线体验:https://huggingface.co/spaces/Qwen/Qwen3-TTS?spm=a2ty_o06.30285417.0.0.2994c921FICm3F