IndexTTS2：突破性的零样本 TTS 语音模型（支持情感可控 + 时长可控）

📰 正文

👉 IndexTTS2 是由BiliBili一个新一代的语音合成模型，它能：

精准控制语音时长（适合视频配音，嘴型同步）。

自由切换情绪（开心、生气、悲伤等），甚至能用文字告诉模型“我想让声音听起来愤怒”。

保持说话人音色不变，同时注入其他音频或文字里的情感。

生成更自然、更清晰的语音，即使在强烈情绪下也不会崩坏。

💡 换句话说，IndexTTS2 就像一个“会演戏的配音演员”，不仅能模仿声音，还能随意切换情绪，并且能配合影视做到精准对嘴。

它解决了什么问题？

语音合成（TTS）技术近年来进步很快，尤其是零样本TTS（Zero-shot TTS）：只需要一小段音频，就能学会一个人的声音。但现有技术仍有两大难题： 1.

时长不可控

自回归模型（逐个token生成语音）在自然度上表现好，但很难精确控制语音时长。

在影视配音等需要和视频口型严格对齐的场景，这是个大问题。

情感不够自然

现有模型能模仿声音，但在表达情绪（愤怒、开心、悲伤等）时，往往僵硬、不真实。

原因在于：训练数据里高质量的情感语音太少，而且模型容易把“音色”和“情绪”混在一起。

IndexTTS2 的核心思路

IndexTTS2，提出了一个新的零样本语音合成方案，主要解决上述问题。它的特点可以概括为三点： 1.

时长可控

可以“精确到毫秒”控制语音长度，也支持自然时长生成。

适合配音、AI解说等时间敏感场景。

音色与情感分离

音色 = 谁在说话（声音的个性特征）。

情感 = 怎么说话（开心、生气、悲伤）。

IndexTTS2 把这两者分开处理，所以同一个声音可以自然地表达不同情绪。

文字驱动的情感控制

不需要提供参考语音，只要输入文字指令（比如“愤怒地说”），系统就能合成带有相应情绪的语音。

IndexTTS2 的主要功能

时长控制（Duration Control）

精确时长控制：可直接指定生成的语音长度，保证与视频、动画口型高度对齐。

自然时长模式：不设定长度时，能生成符合语义节奏的自然语音。 👉 解决的问题：传统自回归TTS无法精确掌控语速和时长，影响配音和多媒体场景。

情感与音色解耦（Emotion–Speaker Disentanglement）

使用 GRL（对抗训练）技术，把“音色（谁说话）”与“情绪（怎么说）”分离。

同一声音可以表达不同情绪，而不会失真。 👉 解决的问题：以往TTS往往把情绪和声音混在一起，导致情绪切换时声音特征被破坏。

情感控制（Emotional Control）

参考音频控制：通过提供一段情绪化语音作为风格提示。

文本指令控制：支持自然语言指令（如“愤怒地说”），由 Text-to-Emotion 模块生成对应情绪向量。 👉 解决的问题：降低使用门槛，让非专业用户也能方便地生成带情绪的语音。

高情绪下的清晰度保障（Speech Clarity in Strong Emotions）

在语音激烈（愤怒、大笑等）时，常见问题是语音模糊、发音不清。

IndexTTS2 引入 GPT隐变量增强，提升清晰度和稳定性。 👉 解决的问题：现有TTS在高情绪表达时语音容易失真。

零样本能力（Zero-Shot TTS）

无需额外训练，只需一小段目标声音，就能模仿说话人音色并加上指定情绪。 👉 解决的问题：减少数据需求，提升泛化性，适合快速部署。

大规模多语种支持

训练语料 55,000小时，覆盖中英文，兼顾自然度与跨语言表现。 👉 解决的问题：提升跨语言适应性，应用场景更广。

开放性与可复现性

作者计划开源代码与预训练模型，方便研究人员和开发者复现和扩展。 👉 价值：推动业界和学界在 TTS 方向的快速进展。

核心技术方法（技术路线）

IndexTTS2 总体架构由三个模块 + 一个附加模块组成：

文字 → [T2S 模块] → 语义Token → [S2M 模块] → Mel频谱 → [Vocoder] → 音频波形
        ↑
   情绪向量由 [T2E模块] 生成，用于情绪控制

🧱 Text-to-Semantic（T2S）模块 - 自回归核心

输入：文本、音色提示、情绪提示、（可选）语音长度（token数）

输出：语义token序列（表示语义+情感）

特点：

支持精准持续时间控制（通过Token数 + 特殊位置编码实现）

使用 GRL（Gradient Reversal Layer）实现音色和情感解耦

采用三阶段训练实现稳健学习（详见第四部分）

🌈 Text-to-Emotion（T2E）模块 - 文本驱动情感

用来将自然语言（如“伤心地说”）→ 转换为向量表示的“情绪状态”

技术路线：

使用 DeepSeek-r1 LLM 提取文本情绪概率

用 Qwen-3 微调成轻量学生模型（蒸馏）

将情绪概率分布映射为情绪向量（用于T2S情绪控制）

🎧 Semantic-to-Mel（S2M）模块 - 非自回归合成频谱

输入：语义token + 音色信息 + GPT隐藏层表示（增强）

使用 Flow Matching（ODE建模）非自回归模型 → 生成Mel频谱

亮点：

提出 GPT latent增强机制，缓解情绪激烈时的“说话模糊”问题

🔊 Vocoder 模块 - BigVGANv2

将Mel频谱转为高保真音频波形

训练策略与原理细节

✅ 三阶段训练流程（T2S模块）

阶段内容Stage 1基础训练（不加入情绪），训练文本到语义的生成能力Stage 2加入情绪向量，训练情绪表达能力，冻结音色模块Stage 3全参数微调，增强鲁棒性与泛化能力

✅ 持续时间控制机制原理

输入token长度T → 生成一个duration embedding p = Wnum h(T)

与语义位置编码共享权重 Wnum = Wsem，实现Token对齐与生成位置精准控制

✅ 情绪解耦与控制机制

使用两个模块提取特征：

c: 说话人音色向量（Speaker Conditioner）

e: 情感向量（Emotion Conditioner）

使用 GRL 强制 e 不包含说话人特征，实现情感与音色完全分离

✅ GPT语义增强（S2M模块）

将T2S中Transformer的隐藏状态 (HGPT) 与语义token融合

构建更富上下文语义的表示，提高语音自然度与清晰度

实验与结果

基础能力（语音自然度 & 清晰度）

客观指标（WER、SS）：IndexTTS2 在大多数测试集上达到SOTA，WER明显降低（如 LibriSpeech WER=3.115%，优于IndexTTS的3.436%）。

主观MOS评价：在说话人相似度、音质、韵律等方面均优于现有模型。

情感表达能力

IndexTTS2 在情感相似度 (ES) 与主观评价（EMOS, PMOS, QMOS）上全面优于CosyVoice2, F5-TTS, MaskGCT等基线。

三阶段训练 & GPT隐变量增强对提升清晰度和情感表现均关键。

自然语言驱动的情感控制

T2E 模块可根据文本指令生成对应情感向量，表现优于CosyVoice2。

MOS评价显示在音色相似度、情感一致性、韵律和音质四个维度均明显更佳。

时长控制

在 0.75× ~ 1.25×时长缩放实验中，token数误差率极低（<0.03%）。

相比

项目地址：https://index-tts.github.io/index-tts2.github.io

论文：https://arxiv.org/pdf/2506.21619

演示：https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo

来源：IndexTTS2：突破性的零样本 TTS 语音模型（支持情感可控 + 时长可控）

📰 正文#

📰 正文