Fish Audio 开源 S2：4B 参数的 TTS 模型，100ms 出声，还能让 AI 笑出来

📰 正文

Fish Audio 发布 S2，这是继 S1 之后的新一代旗舰 TTS 模型，在多项公开 benchmark 上，S2 的表现已全面超越 ElevenLabs、MiniMax Speech-02、Qwen3-TTS 等闭源竞品，拿下开源 + 闭源全榜最优 WER。

这次发布的 S2 是他们的新一代模型，核心卖点三个：开源、快、情感控制粒度细到离谱。

训练数据超过 1000 万小时音频，覆盖约 80+种语言，模型分为两个版本：S2（基础版）和 S2 Pro（旗舰版）。

S2 的模型权重、微调代码、推理引擎全部开源，研究和非商用免费，但是商用需要联系授权。

技术参数：几个数字感受一下

S2 用了一个叫 Dual-AR 的双层架构。上层 4B 参数负责语义理解，下层 400M 参数负责声学细节，加起来 44 亿参数。

训练数据量很猛：1000 万小时以上的音频，覆盖约 80 种语言。

实际跑起来的表现（在 NVIDIA H200 上测的）：

首次出声延迟：约 100ms

实时因子（RTF）：0.195，意思是生成 1 秒语音只需要 0.195 秒

吞吐量：每秒 3000+ 个声学 token

中文语音识别错误率（WER）：0.54%，英文 0.99%

放到 benchmark 里比，S2 在 Audio Turing Test（听众分辨真人还是 AI）上拿到 0.515 分，比字节的 Seed-TTS 高了 24%。简单说，已经有一半以上的人分不出这是 AI 生成的声音了。

最大升级：从固定标签到自然语言情感控制

这是 S2 和上一代 S1 最本质的区别。

自然语言情绪控制（最大亮点），S2 支持在文本中任意位置嵌入自由格式的自然语言描述标签，例如 [whisper in small voice]、[professional broadcast tone]、[pitch up]，不再限于预定义的固定标签集合，实现词级别的细粒度表达控制。

S2 Pro 支持超过 15,000 种独特标签：包括 [pause]、[emphasis]、[laughing]、[excited]、[whisper]、[singing] 等，泛化能力强，未见过的自然语言描述也能有效执行。

上下文增强表现力，得益于模型上下文的扩展，模型现在可以利用前文信息来提升后续生成内容的表现力，从而提高内容的整体自然度。

S1 用圆括号固定标签控制情感，比如 (excited) (sad) (laughing)，标签集合是封闭的，你只能从预定义列表里选。

S2 改成了方括号 + 自由描述。你可以在文本任意位置插入自然语言指令：

今天的会议结果 [用很沮丧的语气] 不太理想，但 [振作起来] 我们明天继续。

系统会理解这些描述并直接反映在语音里，而不是匹配固定关键词。官方支持的独特标签超过 15000 个，包括 [pause]、[emphasis]、[laughing nervously]、[whisper in small voice]、[professional broadcast tone]、[pitch up] 等等。由于模型是在开放描述上训练的，即便是训练时没见过的新描述，泛化能力也相当不错。副语言控制单项胜率高达 91.61%。

这个能力在实际场景里很有用：做有声书可以让角色有情绪起伏，做播客可以让 AI 主播听起来不像在念稿，做游戏配音可以省掉大量录音成本。

多角色一次生成

原生多说话人支持，用户只需上传一段包含多个说话人的参考音频，模型通过 <|speaker:i|> token 自动处理每位说话人的特征，单次推理即可生成多人对话，无需再为每个说话人分别上传音频。

声音克隆也很方便，只需要 10 到 30 秒的参考音频，不用额外微调就能克隆出高度相似的声音。语音克隆时，参考音频 token 放在 system prompt 中，SGLang 自动缓存 KV 状态，同一声音复用时前缀缓存命中率平均达 86.4%，参考音频预填充开销几乎可以忽略。

语言支持：80+ 种语言

S2 Pro 支持 80+ 种语言，第一梯队（质量最高）：日语、英语、中文。第二梯队：韩语、西班牙语、葡萄牙语、阿拉伯语、俄语、法语、德语。在 MiniMax 的多语言测试集上，S2 在 24 种语言中有 11 种拿到了最低错误率，17 种拿到了最高说话人相似度。

推理性能（单卡 H200）

S2 的 Dual-AR 架构与标准自回归 LLM 在结构上同构，可以直接继承 SGLang 的全套 LLM 原生服务优化，包括连续批处理、分页 KV 缓存、CUDA graph 重放和 RadixAttention 前缀缓存。

语音克隆时，参考音频 token 放在 system prompt 中，SGLang 自动缓存 KV 状态，同一声音复用时前缀缓存命中率平均达 86.4%，峰值超过 90%，参考音频预填充开销几乎可以忽略不计。

实测数据：RTF 0.195，首帧延迟约 100ms，吞吐量超过每秒 3000 个 acoustic token。

如何获取

模型权重和代码完全开源，研究和非商业用途免费：

GitHub：https://github.com/fishaudio/fish-speech

HuggingFace：https://huggingface.co/fishaudio/s2-pro

在线体验：https://fish.audio/s2/

技术报告：https://arxiv.org/abs/2603.08823

本文参考：Fish Audio 官方推文 | 原文链接 | S2 产品页 | 开源博客

来源：Fish Audio 开源 S2：4B 参数的 TTS 模型，100ms 出声，还能让 AI 笑出来

📰 正文#

📰 正文