Orpheus-TTS：一个开源高质量语音TTS模型 在音调、节奏、情绪等方面超越现有商业模型

📰 正文

Orpheus-TTS 是由 CanopyAI 发布的一个开源高质量语音合成系统，目标是：

利用大型语言模型（LLM）驱动的语音生成，实现极为自然的人类语音表达，在音调、节奏、情绪等方面超越现有商业模型。

它支持实时流式语音合成、零样本克隆、情感调控，可部署于本地或云端，适用于数字人、语音助手、AI 视频、教育内容等

亮点：

比闭源强：号称语音自然度和情感表达超过 Eleven Labs 和 PlayHT 等商业模型。

超级灵活：支持零样本克隆、实时流式处理，还能加情绪标签。

两个模型版本：

微调版（Finetuned Prod）：适合日常用，比如做语音助手或播客。

预训练版（Pretrained）：基于 10 万多小时的英文语音数据，适合研究或定制化。

主要功能

超自然语音

生成的语音有自然的语调、节奏，还能表达情绪，比如开心、叹气或笑。

支持特殊标签（比如、、），让语音更生动。

零样本克隆声音

不用额外训练，就能模仿某个人的声音（比如给一段音频，它就能学着说）。

提供预设音色（如 “tara”, “zoe”, “leo”, “zac” 等）

控制情绪和语调

用简单的标签或提示，就能让语音听起来兴奋、平静或伤感。

支持不同语气风格的表达，便于故事讲述与角色演绎

超低延迟

实时应用延迟低至 200 毫秒（输入流式处理时可降到 100 毫秒），适合聊天机器人或直播场景。

多语言支持

目前主打英文，但也支持法语、德语、西班牙语、意大利语、汉语、韩语和印地语（每种语言训练了 1000 到 2 万小时数据）。

可以用其他语言的数据微调，扩展更多语言。

开源免费

用 Apache 2.0 许可证，完全开放，任何人都能用、改或加到自己的项目里。

Orpheus-TTS 支持的语言列表

备注：

✅ 每个语言包含一对模型：Pretrained（基础）+ Finetuned（优化）

📢 官方说明这是**“研究预览”阶段**，可能存在小问题（如声调控制、节奏微调待优化）

🧠 项目设计中使用统一的 Prompt 格式，方便在不同语言之间迁移调用

🌐 各语言支持不同的声音角色（voice names）和控制标签（如 <笑>、<叹气> 等）

模型架构与训练体系

Orpheus 语音模型基于 LLaMA 架构（即 LLM 架构），发布了以下版本：

🔍 模型基础：

构建于 LLaMA 3B 基座之上（LLM 结构）

采用大规模语音数据（10万小时以上）进行预训练

📦 模型种类：

Finetuned-Prod: 微调后的主力推理模型（推荐使用）

Pretrained: 仅预训练版本，用于迁移学习

Multilingual Family: 多语种版本（7种语言）

🎯 训练数据：

基于 HuggingFace 格式组织

微调（Finetuning）

建议每个音色用 50~300 条样本即可实现高质量微调

每语言由 2 名专业配音演员录制约 300 句台词

台词中嵌入情绪标签，语言原生化处理

微调参数：全部可训练、bf16 精度、cosine learning rate decay

数据量示例：

中文：20,000 小时

法/德/韩：各 5,000 小时

西/意/印地语：各 1,000 小时

如何使用

在线测试：

用 Google Colab 跑微调版或预训练版（GitHub 里有链接），不用自己装环境。

本地部署：

需要 GPU（推荐 RTX 系列，12GB+ 显存最好）。

装 vLLM（快速推理库），可能得用特定版本（比如 vLLM==0.7.3，避开新版 bug）。

支持 LM Studio 或 llama.cpp 跑本地模型。

微调模型：

改 config.yaml 文件，加入你的语音数据。

跑 train.py 脚本，就能训练自己的专属模型。

GitHub：https://github.com/canopyai/Orpheus-TTS

模型：https://huggingface.co/canopylabs

官网：https://canopylabs.ai/model-releases

来源：Orpheus-TTS：一个开源高质量语音TTS模型在音调、节奏、情绪等方面超越现有商业模型

📰 正文#

📰 正文