📰 正文
Dia 是由 Nari Labs 开发的一个超写实对话级文本转语音(TTS)模型,参数量为 16 亿,能够“一步生成”极为逼真的多角色对话语音。
可以生成极度逼真的对话并完全控制脚本和声音
由一个无资金的两人小团队开发
项目完全开源,采用 Apache 2.0 协议,权重和推理代码公开,便于研究和二次开发。
核心功能
高保真文本转对话语音:能直接根据对话文本生成自然、有情感的多说话人语音。
情感与语调可控:可用音频条件(prompt)进行控制,实现情感、语调的定制。
非语言动作生成:支持如(笑声)、(咳嗽)、(叹气)等非言语声音的合成。
语音克隆:可通过音频prompt实现声音克隆(voice cloning)。
一键推理体验:支持 Gradio UI、本地命令行、Python API 直接调用。
性能对比
Input script 输入脚本
[S1] Dia is an open weights text to dialogue model.
[S2] You get full control over scripts and voices.
[S1] Wow. Amazing. (laughs)
[S2] Try it now on Git hub or Hugging Face.
Dia-1.6B (ours)
ElevenLabs Studio
Sesame CSM-1B
Input script
[S1] Hey. how are you doing?
[S2] Pretty good. Pretty good. What about you?
[S1] I’m great. So happy to be speaking to you.
[S2] Me too. This is some cool stuff. Huh?
[S1] Yeah. I have been reading more about speech generation.
[S2] Yeah.
[S1] And it really seems like context is important.
[S2] Definitely.
Dia-1.6B (ours)
Sesame Website Example
Sesame CSM-1B
ElevenLabs Studio
架构设计与技术亮点
单步对话生成:一次性生成完整对话(支持多说话人,如[S1]、[S2]标签)。
非语言标签支持:支持丰富的非语言动作标签,增强真实感。
硬件支持与推理效率:
推荐在 GPU 上运行,支持 Pytorch 2.0+,CUDA 12.6。
在企业级 GPU(如A4000)可实现近实时语音生成。
后续会支持 CPU、模型量化、Docker 等。
数据与工程实践:借鉴 SoundStorm、Parakeet、Descript Audio Codec 等前沿技术。
可扩展性:未来计划优化推理速度、降低显存占用、支持更广泛硬件。
应用场景
AI 对话助手、语音机器人
数字人、虚拟主播
影视动画配音、多角色游戏语音
内容创作与 remix
语音交互体验、辅助沟通等
使用与开发
支持 pip 安装与 Gradio Web 界面体验。
可直接作为 Python 库调用或本地 CLI 工具。
支持在 HuggingFace 上云端体验,无需本地部署。
社区活跃,持续优化升级。
GitHub:https://github.com/nari-labs/dia/
Hugging Face:https://huggingface.co/nari-labs/Dia-1.6B
更多演示:https://yummy-fir-7a4.notion.site/dia