📰 正文

MegaTTS3 是由字节跳动(Bytedance)研发的第三代 高质量语音合成系统,是一款轻量、高效且开源的 TTS 工具,凭借 0.45B 参数模型实现了高质量中英文语音合成和克隆。

主打:

“轻量化、高保真、强可控性、跨语种、零样本语音克隆”,支持 中文+英文。

它基于 扩散 Transformer + VAE + 稀疏对齐机制,在多个基准上实现了极高音质与稳定性,尤其擅长模仿说话人语气、风格、情绪。

核心功能亮点

image

image

✅ 1. 零样本语音克隆(Zero-shot Voice Cloning)

输入目标说话人音频 + 一段文本,即可合成“声音相似”的语音;

支持合成任意未见过的说话人语音;

相似度可调,适合多种 TTS 克隆应用场景。


✅ 2. 跨语种 + Code-Switching

原生支持 中文+英文 双语输入;

同一语句中可混用中英文,并根据上下文自然切换发音方式;

对中文发英文、英文带中文口音有自然表现。


✅ 3. 强可控性(Controllability)

口音强度控制(Accent Intensity):

参数 p_w 控制可懂性(接近标准普通话/美音);

t_w 控制相似性(保留原说话人口音特征);

即将支持:

逐音素时长调节

语速、语调、语气微调


✅ 4. 音质高保真 + 稳定性好

基于 WaveVAE 编码器 的潜变量建模;

比 mel 频谱建模更紧凑、无冗余、支持高还原度;

可在 24kHz 保持清晰细节,适合人声还原、配音、声音还原。

与其他 TTS 系统对比

image

MegaTTS3 vs. VALL-E:

MegaTTS3 更轻量(0.45B vs. 数亿参数),但功能可控性稍弱。

MegaTTS3 vs. Whisper:

Whisper 专注于语音识别,MegaTTS3 专注于语音生成,二者用途互补。

MegaTTS3 vs. AnythingTTS:

MegaTTS3 支持中英文混合且更轻量,AnythingTTS 更偏向本地部署和隐私保护。

image

技术架构

image

MegaTTS3 的技术实现基于以下关键组件:

(1) 模型设计

Sparse Alignment Enhanced Latent Diffusion Transformer:基于扩散模型的变体,结合稀疏对齐技术,提升零样本语音合成的质量。

WavVAE:基于 WavTokenizer 的高效声学离散编码器,用于生成高质量语音。

(2) 数据处理

声学潜在表示(Acoustic Latents):

相比传统 Mel 频谱图更紧凑且具有区分性,加速模型收敛。

可用于语音转换和高品质声码器。

推理限制:WaveVAE 编码器参数未公开,仅提供预提取的潜在表示用于推理。

(3) 可控参数

p_w:语音清晰度权重(intelligibility weight)。

t_w:音色相似度权重(similarity weight)。

GitHub 地址:https://github.com/bytedance/MegaTTS3


来源:MegaTTS3:字节跳动发布第三代 高质量语音合成系统 0.45B 参数实现高质量中英文语音合成和克隆