📰 正文

👉 IndexTTS2 是由BiliBili一个新一代的语音合成模型,它能:

精准控制语音时长(适合视频配音,嘴型同步)。

自由切换情绪(开心、生气、悲伤等),甚至能用文字告诉模型“我想让声音听起来愤怒”。

保持说话人音色不变,同时注入其他音频或文字里的情感。

生成更自然、更清晰的语音,即使在强烈情绪下也不会崩坏。

💡 换句话说,IndexTTS2 就像一个“会演戏的配音演员”,不仅能模仿声音,还能随意切换情绪,并且能配合影视做到精准对嘴。

它解决了什么问题?

语音合成(TTS)技术近年来进步很快,尤其是 零样本TTS(Zero-shot TTS):只需要一小段音频,就能学会一个人的声音。 但现有技术仍有两大难题: 1.

时长不可控

自回归模型(逐个token生成语音)在自然度上表现好,但很难精确控制语音时长。

在 影视配音 等需要和视频口型严格对齐的场景,这是个大问题。

情感不够自然

现有模型能模仿声音,但在表达情绪(愤怒、开心、悲伤等)时,往往僵硬、不真实。

原因在于:训练数据里高质量的情感语音太少,而且模型容易把“音色”和“情绪”混在一起。


IndexTTS2 的核心思路

IndexTTS2,提出了一个新的零样本语音合成方案,主要解决上述问题。它的特点可以概括为三点: 1.

时长可控

可以“精确到毫秒”控制语音长度,也支持自然时长生成。

适合配音、AI解说等时间敏感场景。

音色与情感分离

音色 = 谁在说话(声音的个性特征)。

情感 = 怎么说话(开心、生气、悲伤)。

IndexTTS2 把这两者分开处理,所以同一个声音可以自然地表达不同情绪。

文字驱动的情感控制

不需要提供参考语音,只要输入文字指令(比如“愤怒地说”),系统就能合成带有相应情绪的语音。

IndexTTS2 的主要功能

image

  1. 时长控制(Duration Control)

精确时长控制:可直接指定生成的语音长度,保证与视频、动画口型高度对齐。

自然时长模式:不设定长度时,能生成符合语义节奏的自然语音。 👉 解决的问题:传统自回归TTS无法精确掌控语速和时长,影响配音和多媒体场景。


  1. 情感与音色解耦(Emotion–Speaker Disentanglement)

使用 GRL(对抗训练) 技术,把“音色(谁说话)”与“情绪(怎么说)”分离。

同一声音可以表达不同情绪,而不会失真。 👉 解决的问题:以往TTS往往把情绪和声音混在一起,导致情绪切换时声音特征被破坏。


  1. 情感控制(Emotional Control)

参考音频控制:通过提供一段情绪化语音作为风格提示。

文本指令控制:支持自然语言指令(如“愤怒地说”),由 Text-to-Emotion 模块生成对应情绪向量。 👉 解决的问题:降低使用门槛,让非专业用户也能方便地生成带情绪的语音。


  1. 高情绪下的清晰度保障(Speech Clarity in Strong Emotions)

在语音激烈(愤怒、大笑等)时,常见问题是语音模糊、发音不清。

IndexTTS2 引入 GPT隐变量增强,提升清晰度和稳定性。 👉 解决的问题:现有TTS在高情绪表达时语音容易失真。


  1. 零样本能力(Zero-Shot TTS)

无需额外训练,只需一小段目标声音,就能模仿说话人音色并加上指定情绪。 👉 解决的问题:减少数据需求,提升泛化性,适合快速部署。


  1. 大规模多语种支持

训练语料 55,000小时,覆盖中英文,兼顾自然度与跨语言表现。 👉 解决的问题:提升跨语言适应性,应用场景更广。


  1. 开放性与可复现性

作者计划开源 代码与预训练模型,方便研究人员和开发者复现和扩展。 👉 价值:推动业界和学界在 TTS 方向的快速进展。

核心技术方法(技术路线)

IndexTTS2 总体架构由三个模块 + 一个附加模块组成:

文字 → [T2S 模块] → 语义Token → [S2M 模块] → Mel频谱 → [Vocoder] → 音频波形
        ↑
   情绪向量由 [T2E模块] 生成,用于情绪控制

image


  1. 🧱 Text-to-Semantic(T2S)模块 - 自回归核心

输入:文本、音色提示、情绪提示、(可选)语音长度(token数)

输出:语义token序列(表示语义+情感)

特点:

支持 精准持续时间控制(通过Token数 + 特殊位置编码实现)

使用 GRL(Gradient Reversal Layer) 实现音色和情感解耦

采用 三阶段训练 实现稳健学习(详见第四部分)


  1. 🌈 Text-to-Emotion(T2E)模块 - 文本驱动情感

用来将自然语言(如“伤心地说”)→ 转换为向量表示的“情绪状态”

技术路线:

使用 DeepSeek-r1 LLM 提取文本情绪概率

用 Qwen-3 微调成轻量学生模型(蒸馏)

将情绪概率分布映射为 情绪向量(用于T2S情绪控制)


  1. 🎧 Semantic-to-Mel(S2M)模块 - 非自回归合成频谱

输入:语义token + 音色信息 + GPT隐藏层表示(增强)

使用 Flow Matching(ODE建模) 非自回归模型 → 生成Mel频谱

亮点:

提出 GPT latent增强机制,缓解情绪激烈时的“说话模糊”问题


  1. 🔊 Vocoder 模块 - BigVGANv2

将Mel频谱转为高保真音频波形


训练策略与原理细节

✅ 三阶段训练流程(T2S模块)

阶段内容Stage 1基础训练(不加入情绪),训练文本到语义的生成能力Stage 2加入情绪向量,训练情绪表达能力,冻结音色模块Stage 3全参数微调,增强鲁棒性与泛化能力


✅ 持续时间控制机制原理

输入token长度T → 生成一个duration embedding p = Wnum h(T)

与语义位置编码共享权重 Wnum = Wsem,实现Token对齐与生成位置精准控制


✅ 情绪解耦与控制机制

使用两个模块提取特征:

c: 说话人音色向量(Speaker Conditioner)

e: 情感向量(Emotion Conditioner)

使用 GRL 强制 e 不包含说话人特征,实现情感与音色完全分离


✅ GPT语义增强(S2M模块)

将T2S中Transformer的隐藏状态 (HGPT) 与语义token融合

构建更富上下文语义的表示,提高语音自然度与清晰度

实验与结果

  1. 基础能力(语音自然度 & 清晰度)

客观指标(WER、SS):IndexTTS2 在 大多数测试集上达到SOTA,WER明显降低(如 LibriSpeech WER=3.115%,优于IndexTTS的3.436%)。

主观MOS评价:在说话人相似度、音质、韵律等方面均优于现有模型。

  1. 情感表达能力

IndexTTS2 在 情感相似度 (ES) 与主观评价(EMOS, PMOS, QMOS)上 全面优于CosyVoice2, F5-TTS, MaskGCT等基线。

三阶段训练 & GPT隐变量增强 对提升清晰度和情感表现均关键。

  1. 自然语言驱动的情感控制

T2E 模块可根据文本指令生成对应情感向量,表现优于CosyVoice2。

MOS评价显示在音色相似度、情感一致性、韵律和音质四个维度均明显更佳。

  1. 时长控制

在 0.75× ~ 1.25×时长缩放实验 中,token数误差率极低(<0.03%)。

相比

项目地址:https://index-tts.github.io/index-tts2.github.io

论文:https://arxiv.org/pdf/2506.21619

演示:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo


来源:IndexTTS2:突破性的零样本 TTS 语音模型(支持情感可控 + 时长可控)