📰 正文

阿里巴巴 Qwen 团队发布了全新一代语音合成模型系列 Qwen3-TTS,具备语音克隆、语音设计、超高保真语音生成以及基于自然语言的语音控制等能力,是目前功能最全的开源语音生成系统之一。

该系列基于创新的 Qwen3-TTS-Tokenizer-12Hz 多码本语音编码器,实现了高效压缩与鲁棒语音表示,可在轻量架构下快速、逼真地还原人声与声学环境。

它能做到:

🧬 克隆声音:听你说3秒话,就能复刻出你的音色;

🎙️ 自定义音色:你说“来个温柔女声”或“做成热血旁白”,它立刻生成;

🗣️ 自然情绪控制:能听懂文字里的语气,比如“愤怒”、“悲伤”、“调皮”;

🌍 多语言支持:能说中、英、日、韩、法、德、西、俄、葡、意共10种语言;

⚡ 实时响应:输入一个字,它就开始说,延迟低至 97毫秒,几乎实时。

版本配置与性能

image

两个版本都支持:

流式语音生成(边输入边说)

自然语言控制(直接指令调节语气)

语音克隆与定制音色

主要区别:

image

技术亮点

🌐 1. 全新语音编码器

用上了一个叫 Qwen3-TTS-Tokenizer-12Hz 的黑科技模块。 它的作用是:

把复杂语音信号压缩成高效编码;

同时保留音色、情绪、背景环境音等细节;

让AI说话更“真”,而且声音不失真。

image

👉 它相当于给声音做了“高清压缩”,既轻量又保真。


⚡ 2. “Dual-Track” 双通道流式生成

这个机制让 Qwen3-TTS 的响应几乎是实时的:

输入一个字符,它就能马上发声;

整体延迟只有 97ms,比你眨眼还快。

适合应用在:

实时语音助手

游戏NPC对话

直播配音、互动故事


🎨 3. “自然语言控制”真懂你说什么

Qwen3-TTS 不需要复杂参数,只要说人话指令就能调整声音,比如:

「用激动的语气讲一下」 「小声点说,语速慢一点」 「像中年男性播音那样讲」

它就会自己调节语气、节奏和音高,效果自然流畅。 这意味着你不用懂声音工程,也能轻松“导演”AI怎么说话。


🧬 4. 声音克隆只要3秒

你录3秒语音,它就能学会你的声线。 无论你是男是女,说中文还是英文,它都能模仿。 甚至能做到跨语言克隆,比如:

你用中文录音,它能用相同音色说英语或日语!

官方测试显示:

平均识别误差(WER)只有 1.8%

说话人相似度高达 0.79 这意味着几乎可以“以假乱真”。


🧩 5. 多角色对话 & 长音频生成

Qwen3-TTS 不仅能生成一句话,还能生成完整的对话、旁白或广播剧。 例如:

「旁白」语气平稳 「角色A」兴奋 「角色B」紧张

它会自动给每个角色换音色、调整节奏,甚至保持人物一致性, 做一整段“多角色配音剧”完全没问题。

🧏 6. 声音质量(真的很强)

在 InstructTTS-Eval、Seed-tts-eval 等权威测试中,Qwen3-TTS 系列在 指令跟随、表达力、语音稳定性与跨语种能力 上全面超越 MiniMax、SeedTTS、CosyVoice3 与 ElevenLabs 等模型,达到全球开源 TTS 模型的新 SOTA。

image

具体来说:

音色创造任务上,Qwen3-TTS-VoiceDesign 在 InstructTTS-Eval 中指令遵循能力和生成表现力都整体超越 MiniMax-Voice-Design 闭源模型,并大幅领先其余开源模型。

在音色控制任务上,Qwen3-TTS-Instruct 不仅具备单人多语言的泛化能力,平均词错率 2.34%;同时具备保持音色的风格控制能力,InstructTTS-Eval 取得了 75.4% 的分数;此外,也展现出卓越的长语音生成能力,一次性合成 10 分钟语音的中英词错率为 2.36/2.81%。

在音色克隆任务上,Qwen3-TTS-VoiceClone 在 Seed-tts-eval 上中英文克隆的语音稳定性表现上均超越 MiniMax 和 SeedTTS;在 TTS multilingual test set 上 10 个语项上取得了 1.835% 的平均词错误率和 0.789 的说话人相似度,超越 MiniMax 和 ElevenLabs;跨语种音色克隆也超越 CosyVoice3 位居 SOTA。

image

image

使用方式

Qwen3-TTS 已全面开源,可通过以下渠道体验:

💻 GitHub

🤗 HuggingFace 模型页

🌐 ModelScope

☁️ Qwen API 在线接口

📃 技术报告

在线体验:https://huggingface.co/spaces/Qwen/Qwen3-TTS?spm=a2ty_o06.30285417.0.0.2994c921FICm3F


来源:Qwen3-TTS 正式开源:全能语音生成、克隆与设计系统