📰 正文
做情感 AI 出身的 Hume AI 发布了 TADA,这是一个基于 LLM 架构的 TTS(Text-to-Speech)系统,主打"快、准、轻"三大特性,在速度、幻觉率和端侧部署能力上均展现出显著优势。
在 1000 多个测试样本中实现了零内容幻觉,比同级别 LLM TTS 快 5 倍,轻到可以在手机上跑。
模型基于 Llama 3.2,分两个版本:TADA-1B(英文,轻量端侧部署)和 TADA-3B-ML(多语言,支持中文、日语、德语等 9 种语言)。
代码和权重全部开源,MIT 协议,商用无限制,pip install hume-tada 一行装好。
LLM 语音合成核心问题:文本和音频的"长度失配"
要理解 TADA 的创新,首先需要理解当前 LLM 语音合成面临的一个根本性矛盾。
每一秒的语音音频,对应的声学信息量远远大于文本信息量。用 token 来衡量的话,一秒语音大约只对应 2-3 个文本 token,但却需要 12.5 到 25 个声学帧来表示。这种严重的数量不对称,直接导致了一系列工程问题:上下文窗口被迅速耗尽,内存消耗居高不下,推理速度受限,而且模型在漫长的音频 token 序列中很容易"跑偏",出现跳词、幻觉词、漏读等问题。
现有的主流方案通常有两种应对思路:一种是降低音频帧率,用更少的 token 表示同样长度的音频;另一种是在文本和音频之间引入中间的"语义 token"层作为桥梁。但这两种方法各有代价,要么损失语音表现力,要么增加系统复杂度。
TADA 的解法:一对一同步对齐
TADA 全称 Text-Acoustic Dual Alignment,核心思路是让文字和语音严格"一对一锁步":每一个文字 token 精确对应一段音频,两者在同一个流里同步生成。
传统方案是文字和音频各跑各的再对齐,TADA 从源头就绑在一起,所以从根上避免了"念多了"或"念漏了"。
TADA 走了一条完全不同的路。它没有试图压缩音频 token 的数量,而是将音频表征直接对齐到文本 token 上,实现严格的一对一映射:每个文本 token 对应一个连续的声学向量,文本和语音在 LLM 中同步前进。
具体来说:
输入侧,一个编码器配合对齐器(aligner),从每个文本 token 对应的音频片段中提取声学特征。
输出侧,LLM 最后一层的隐藏状态作为条件向量,驱动一个 flow-matching 解码头生成声学特征,再由解码器将其转换为音频波形,并回馈给模型。
由于 LLM 的每一步推理恰好对应一个文本 token 和一个音频帧,整个生成过程天然更快、计算量更小。更关键的是,这种架构从结构上就杜绝了跳词和幻觉问题,因为模型不可能在文本和音频之间出现"错位"。
几个关键数据:
零幻觉:在 LibriTTSR 数据集的 1000 多个测试样本中,没有出现一次内容幻觉。不是"很少",是零。而且这个模型是用大规模"野外数据"训练的,没有做后训练精调,却达到了和精选小数据集训练的模型同等可靠性。
速度:实时因子(RTF)0.09,生成 1 秒语音只需要 0.09 秒计算时间,比同级别的 LLM TTS 快 5 倍以上。
资源消耗:每秒音频只需要 2-3 帧,其他方案通常需要 12.5 到 75 帧。同样 2048 个 token 的上下文,传统系统撑大约 70 秒音频,TADA 能装下 700 秒,差了 10 倍。
同步转录:生成语音的同时就出文字,不用再跑一遍语音识别,零额外延迟。
长文本和对话场景:TADA 同步化的 token 方案在上下文效率上具有压倒性优势。传统系统在 2048 token 的上下文窗口下大约只能容纳 70 秒左右的音频,而 TADA 在相同预算下可以支撑约 700 秒,也就是近 12 分钟的语音。这为长篇叙述、长时间对话和多轮语音交互打开了大门。
语音质量怎么样
在 EARS 数据集(长篇表达性语音)的人工评估中,说话人相似度 4.18/5.0,自然度 3.78/5.0,综合排名第二,超过了好几个训练数据量比它大得多的系统。
TADA 的优势不在"听起来最像人",在"绝对不出错"和"算力消耗极低"。
这其实是产品策略的选择:Hume AI 自家商业 TTS 产品 OCTAVE 主打情感表达,走高端路线。TADA 开源出来的定位是"基础设施级别的可靠语音生成",适合对准确性有硬要求但预算有限的场景。
哪些场景适合用
对准确性零容忍的场景:医疗报告朗读、金融数据播报、法律文书语音化。零幻觉在这些领域是刚需。
端侧部署:1B 版本基于 Llama 3.2 1B,配合 0.09 的 RTF,在手机或边缘设备上跑语音合成完全可行。对于设备厂商和 App 开发者来说,这意味着更低的延迟、更好的隐私保护,以及零 API 依赖。
长内容生成:播客、有声书、课程音频。700 秒的上下文容量意味着可以一口气处理十几分钟的内容,不用反复切段。
多语言产品:3B 版本覆盖 9 种语言,一个模型搞定多语言语音功能。
需要同步字幕的场景:直播、视频制作。语音和文字同时出,省掉了后期再跑 ASR 的步骤。
想先试试效果的,HuggingFace 上有在线 Demo
可以直接体验:huggingface.co/spaces/HumeAI/tada
局限性
Hume AI 在博客和论文里明确列了几个已知问题:
长音频生成时会出现"说话人漂移",声音特征慢慢偏离参考音色。官方尝试用拒绝采样缓解但还没完全解决,临时方案是定期重置上下文
语音和文字同时生成时存在"模态鸿沟",文字质量会下降。他们用了一个叫 Speech Free Guidance(SFG)的技术部分改善,但问题仍然存在
目前只做了语音续接的预训练,对话助手场景需要额外微调
语言覆盖:英语 + 7 种其他语言,还不算广。不过官方透露正在用 Hume 自有数据训练更大的模型,覆盖更多语言放在行业里看
开源情况
TADA 现已完全开源,发布了两个基于 Llama 的预训练模型:
1B 参数英语版:huggingface.co/HumeAI/tada-1b
3B 参数多语言版:huggingface.co/HumeAI/tada-3b-ml
在线演示:huggingface.co/spaces/HumeAI/tada
GitHub:github.com/HumeAI/tada
技术报告:arxiv.org/abs/2602.23068
Hume AI 的博客 | https://www.hume.ai/blog/opensource-tada