Dia：一个由两人小团队开发的完全开源语音模型 能“一步生成”极为逼真的多角色对话语音

📰 正文

Dia 是由 Nari Labs 开发的一个超写实对话级文本转语音（TTS）模型，参数量为 16 亿，能够“一步生成”极为逼真的多角色对话语音。

可以生成极度逼真的对话并完全控制脚本和声音

由一个无资金的两人小团队开发

项目完全开源，采用 Apache 2.0 协议，权重和推理代码公开，便于研究和二次开发。

核心功能

高保真文本转对话语音：能直接根据对话文本生成自然、有情感的多说话人语音。

情感与语调可控：可用音频条件（prompt）进行控制，实现情感、语调的定制。

非语言动作生成：支持如（笑声）、（咳嗽）、（叹气）等非言语声音的合成。

语音克隆：可通过音频prompt实现声音克隆（voice cloning）。

一键推理体验：支持 Gradio UI、本地命令行、Python API 直接调用。

性能对比

Input script 输入脚本

[S1] Dia is an open weights text to dialogue model.

[S2] You get full control over scripts and voices.

[S1] Wow. Amazing. (laughs)

[S2] Try it now on Git hub or Hugging Face.

Dia-1.6B (ours)

ElevenLabs Studio

Sesame CSM-1B

Input script

[S1] Hey. how are you doing?

[S2] Pretty good. Pretty good. What about you?

[S1] I’m great. So happy to be speaking to you.

[S2] Me too. This is some cool stuff. Huh?

[S1] Yeah. I have been reading more about speech generation.

[S2] Yeah.

[S1] And it really seems like context is important.

[S2] Definitely.

Dia-1.6B (ours)

Sesame Website Example

Sesame CSM-1B

ElevenLabs Studio

架构设计与技术亮点

单步对话生成：一次性生成完整对话（支持多说话人，如[S1]、[S2]标签）。

非语言标签支持：支持丰富的非语言动作标签，增强真实感。

硬件支持与推理效率：

推荐在 GPU 上运行，支持 Pytorch 2.0+，CUDA 12.6。

在企业级 GPU（如A4000）可实现近实时语音生成。

后续会支持 CPU、模型量化、Docker 等。

数据与工程实践：借鉴 SoundStorm、Parakeet、Descript Audio Codec 等前沿技术。

可扩展性：未来计划优化推理速度、降低显存占用、支持更广泛硬件。

应用场景

AI 对话助手、语音机器人

数字人、虚拟主播

影视动画配音、多角色游戏语音

内容创作与 remix

语音交互体验、辅助沟通等

使用与开发

支持 pip 安装与 Gradio Web 界面体验。

可直接作为 Python 库调用或本地 CLI 工具。

支持在 HuggingFace 上云端体验，无需本地部署。

社区活跃，持续优化升级。

GitHub：https://github.com/nari-labs/dia/

Hugging Face：https://huggingface.co/nari-labs/Dia-1.6B

更多演示：https://yummy-fir-7a4.notion.site/dia

来源：Dia：一个由两人小团队开发的完全开源语音模型能“一步生成”极为逼真的多角色对话语音

📰 正文#

📰 正文