Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上 支持中文

📰 正文

做情感 AI 出身的 Hume AI 发布了 TADA，这是一个基于 LLM 架构的 TTS（Text-to-Speech）系统，主打"快、准、轻"三大特性，在速度、幻觉率和端侧部署能力上均展现出显著优势。

在 1000 多个测试样本中实现了零内容幻觉，比同级别 LLM TTS 快 5 倍，轻到可以在手机上跑。

模型基于 Llama 3.2，分两个版本：TADA-1B（英文，轻量端侧部署）和 TADA-3B-ML（多语言，支持中文、日语、德语等 9 种语言）。

代码和权重全部开源，MIT 协议，商用无限制，pip install hume-tada 一行装好。

LLM 语音合成核心问题：文本和音频的"长度失配"

要理解 TADA 的创新，首先需要理解当前 LLM 语音合成面临的一个根本性矛盾。

每一秒的语音音频，对应的声学信息量远远大于文本信息量。用 token 来衡量的话，一秒语音大约只对应 2-3 个文本 token，但却需要 12.5 到 25 个声学帧来表示。这种严重的数量不对称，直接导致了一系列工程问题：上下文窗口被迅速耗尽，内存消耗居高不下，推理速度受限，而且模型在漫长的音频 token 序列中很容易"跑偏"，出现跳词、幻觉词、漏读等问题。

现有的主流方案通常有两种应对思路：一种是降低音频帧率，用更少的 token 表示同样长度的音频；另一种是在文本和音频之间引入中间的"语义 token"层作为桥梁。但这两种方法各有代价，要么损失语音表现力，要么增加系统复杂度。

TADA 的解法：一对一同步对齐

TADA 全称 Text-Acoustic Dual Alignment，核心思路是让文字和语音严格"一对一锁步"：每一个文字 token 精确对应一段音频，两者在同一个流里同步生成。

传统方案是文字和音频各跑各的再对齐，TADA 从源头就绑在一起，所以从根上避免了"念多了"或"念漏了"。

TADA 走了一条完全不同的路。它没有试图压缩音频 token 的数量，而是将音频表征直接对齐到文本 token 上，实现严格的一对一映射：每个文本 token 对应一个连续的声学向量，文本和语音在 LLM 中同步前进。

具体来说：

输入侧，一个编码器配合对齐器（aligner），从每个文本 token 对应的音频片段中提取声学特征。

输出侧，LLM 最后一层的隐藏状态作为条件向量，驱动一个 flow-matching 解码头生成声学特征，再由解码器将其转换为音频波形，并回馈给模型。

由于 LLM 的每一步推理恰好对应一个文本 token 和一个音频帧，整个生成过程天然更快、计算量更小。更关键的是，这种架构从结构上就杜绝了跳词和幻觉问题，因为模型不可能在文本和音频之间出现"错位"。

几个关键数据：

零幻觉：在 LibriTTSR 数据集的 1000 多个测试样本中，没有出现一次内容幻觉。不是"很少"，是零。而且这个模型是用大规模"野外数据"训练的，没有做后训练精调，却达到了和精选小数据集训练的模型同等可靠性。

速度：实时因子（RTF）0.09，生成 1 秒语音只需要 0.09 秒计算时间，比同级别的 LLM TTS 快 5 倍以上。

资源消耗：每秒音频只需要 2-3 帧，其他方案通常需要 12.5 到 75 帧。同样 2048 个 token 的上下文，传统系统撑大约 70 秒音频，TADA 能装下 700 秒，差了 10 倍。

同步转录：生成语音的同时就出文字，不用再跑一遍语音识别，零额外延迟。

长文本和对话场景：TADA 同步化的 token 方案在上下文效率上具有压倒性优势。传统系统在 2048 token 的上下文窗口下大约只能容纳 70 秒左右的音频，而 TADA 在相同预算下可以支撑约 700 秒，也就是近 12 分钟的语音。这为长篇叙述、长时间对话和多轮语音交互打开了大门。

语音质量怎么样

在 EARS 数据集（长篇表达性语音）的人工评估中，说话人相似度 4.18/5.0，自然度 3.78/5.0，综合排名第二，超过了好几个训练数据量比它大得多的系统。

TADA 的优势不在"听起来最像人"，在"绝对不出错"和"算力消耗极低"。

这其实是产品策略的选择：Hume AI 自家商业 TTS 产品 OCTAVE 主打情感表达，走高端路线。TADA 开源出来的定位是"基础设施级别的可靠语音生成"，适合对准确性有硬要求但预算有限的场景。

哪些场景适合用

对准确性零容忍的场景：医疗报告朗读、金融数据播报、法律文书语音化。零幻觉在这些领域是刚需。

端侧部署：1B 版本基于 Llama 3.2 1B，配合 0.09 的 RTF，在手机或边缘设备上跑语音合成完全可行。对于设备厂商和 App 开发者来说，这意味着更低的延迟、更好的隐私保护，以及零 API 依赖。

长内容生成：播客、有声书、课程音频。700 秒的上下文容量意味着可以一口气处理十几分钟的内容，不用反复切段。

多语言产品：3B 版本覆盖 9 种语言，一个模型搞定多语言语音功能。

需要同步字幕的场景：直播、视频制作。语音和文字同时出，省掉了后期再跑 ASR 的步骤。

想先试试效果的，HuggingFace 上有在线 Demo

可以直接体验：huggingface.co/spaces/HumeAI/tada

局限性

Hume AI 在博客和论文里明确列了几个已知问题：

长音频生成时会出现"说话人漂移"，声音特征慢慢偏离参考音色。官方尝试用拒绝采样缓解但还没完全解决，临时方案是定期重置上下文

语音和文字同时生成时存在"模态鸿沟"，文字质量会下降。他们用了一个叫 Speech Free Guidance（SFG）的技术部分改善，但问题仍然存在

目前只做了语音续接的预训练，对话助手场景需要额外微调

语言覆盖：英语 + 7 种其他语言，还不算广。不过官方透露正在用 Hume 自有数据训练更大的模型，覆盖更多语言放在行业里看

开源情况

TADA 现已完全开源，发布了两个基于 Llama 的预训练模型：

1B 参数英语版：huggingface.co/HumeAI/tada-1b

3B 参数多语言版：huggingface.co/HumeAI/tada-3b-ml

在线演示：huggingface.co/spaces/HumeAI/tada

GitHub：github.com/HumeAI/tada

技术报告：arxiv.org/abs/2602.23068

Hume AI 的博客 | https://www.hume.ai/blog/opensource-tada

来源：Hume AI 发布 TTS 模型：TADA 零幻觉、速度快，能跑在手机上支持中文

📰 正文#

📰 正文