📰 正文

Orpheus-TTS 是由 CanopyAI 发布的一个开源高质量语音合成系统,目标是:

利用大型语言模型(LLM)驱动的语音生成,实现极为自然的人类语音表达,在音调、节奏、情绪等方面超越现有商业模型。

它支持实时流式语音合成、零样本克隆、情感调控,可部署于本地或云端,适用于数字人、语音助手、AI 视频、教育内容等

亮点:

比闭源强:号称语音自然度和情感表达超过 Eleven Labs 和 PlayHT 等商业模型。

超级灵活:支持零样本克隆、实时流式处理,还能加情绪标签。

两个模型版本:

微调版(Finetuned Prod):适合日常用,比如做语音助手或播客。

预训练版(Pretrained):基于 10 万多小时的英文语音数据,适合研究或定制化。

主要功能

超自然语音

生成的语音有自然的语调、节奏,还能表达情绪,比如开心、叹气或笑。

支持特殊标签(比如 ),让语音更生动。

零样本克隆声音

不用额外训练,就能模仿某个人的声音(比如给一段音频,它就能学着说)。

提供预设音色(如 “tara”, “zoe”, “leo”, “zac” 等)

控制情绪和语调

用简单的标签或提示,就能让语音听起来兴奋、平静或伤感。

支持不同语气风格的表达,便于故事讲述与角色演绎

超低延迟

实时应用延迟低至 200 毫秒(输入流式处理时可降到 100 毫秒),适合聊天机器人或直播场景。

多语言支持

目前主打英文,但也支持法语、德语、西班牙语、意大利语、汉语、韩语和印地语(每种语言训练了 1000 到 2 万小时数据)。

可以用其他语言的数据微调,扩展更多语言。

开源免费

用 Apache 2.0 许可证,完全开放,任何人都能用、改或加到自己的项目里。

Orpheus-TTS 支持的语言列表

image

备注:

✅ 每个语言包含一对模型:Pretrained(基础)+ Finetuned(优化)

📢 官方说明这是**“研究预览”阶段**,可能存在小问题(如声调控制、节奏微调待优化)

🧠 项目设计中使用统一的 Prompt 格式,方便在不同语言之间迁移调用

🌐 各语言支持不同的声音角色(voice names)和控制标签(如 <笑>、<叹气> 等)

模型架构与训练体系

Orpheus 语音模型基于 LLaMA 架构(即 LLM 架构),发布了以下版本:

image

🔍 模型基础:

构建于 LLaMA 3B 基座之上(LLM 结构)

采用大规模语音数据(10万小时以上)进行预训练

image

📦 模型种类:

Finetuned-Prod: 微调后的主力推理模型(推荐使用)

Pretrained: 仅预训练版本,用于迁移学习

Multilingual Family: 多语种版本(7种语言)

🎯 训练数据:

基于 HuggingFace 格式组织

微调(Finetuning)

建议每个音色用 50~300 条样本即可实现高质量微调

每语言由 2 名专业配音演员录制约 300 句台词

台词中嵌入情绪标签,语言原生化处理

微调参数:全部可训练、bf16 精度、cosine learning rate decay

数据量示例:

中文:20,000 小时

法/德/韩:各 5,000 小时

西/意/印地语:各 1,000 小时

如何使用

在线测试:

用 Google Colab 跑微调版或预训练版(GitHub 里有链接),不用自己装环境。

本地部署:

需要 GPU(推荐 RTX 系列,12GB+ 显存最好)。

装 vLLM(快速推理库),可能得用特定版本(比如 vLLM==0.7.3,避开新版 bug)。

支持 LM Studio 或 llama.cpp 跑本地模型。

微调模型:

改 config.yaml 文件,加入你的语音数据。

跑 train.py 脚本,就能训练自己的专属模型。

GitHub:https://github.com/canopyai/Orpheus-TTS

模型:https://huggingface.co/canopylabs

官网:https://canopylabs.ai/model-releases


来源:Orpheus-TTS:一个开源高质量语音TTS模型 在音调、节奏、情绪等方面超越现有商业模型