📰 正文
Orpheus-TTS 是由 CanopyAI 发布的一个开源高质量语音合成系统,目标是:
利用大型语言模型(LLM)驱动的语音生成,实现极为自然的人类语音表达,在音调、节奏、情绪等方面超越现有商业模型。
它支持实时流式语音合成、零样本克隆、情感调控,可部署于本地或云端,适用于数字人、语音助手、AI 视频、教育内容等
亮点:
比闭源强:号称语音自然度和情感表达超过 Eleven Labs 和 PlayHT 等商业模型。
超级灵活:支持零样本克隆、实时流式处理,还能加情绪标签。
两个模型版本:
微调版(Finetuned Prod):适合日常用,比如做语音助手或播客。
预训练版(Pretrained):基于 10 万多小时的英文语音数据,适合研究或定制化。
主要功能
超自然语音
生成的语音有自然的语调、节奏,还能表达情绪,比如开心、叹气或笑。
支持特殊标签(比如
零样本克隆声音
不用额外训练,就能模仿某个人的声音(比如给一段音频,它就能学着说)。
提供预设音色(如 “tara”, “zoe”, “leo”, “zac” 等)
控制情绪和语调
用简单的标签或提示,就能让语音听起来兴奋、平静或伤感。
支持不同语气风格的表达,便于故事讲述与角色演绎
超低延迟
实时应用延迟低至 200 毫秒(输入流式处理时可降到 100 毫秒),适合聊天机器人或直播场景。
多语言支持
目前主打英文,但也支持法语、德语、西班牙语、意大利语、汉语、韩语和印地语(每种语言训练了 1000 到 2 万小时数据)。
可以用其他语言的数据微调,扩展更多语言。
开源免费
用 Apache 2.0 许可证,完全开放,任何人都能用、改或加到自己的项目里。
Orpheus-TTS 支持的语言列表
备注:
✅ 每个语言包含一对模型:Pretrained(基础)+ Finetuned(优化)
📢 官方说明这是**“研究预览”阶段**,可能存在小问题(如声调控制、节奏微调待优化)
🧠 项目设计中使用统一的 Prompt 格式,方便在不同语言之间迁移调用
🌐 各语言支持不同的声音角色(voice names)和控制标签(如 <笑>、<叹气> 等)
模型架构与训练体系
Orpheus 语音模型基于 LLaMA 架构(即 LLM 架构),发布了以下版本:
🔍 模型基础:
构建于 LLaMA 3B 基座之上(LLM 结构)
采用大规模语音数据(10万小时以上)进行预训练
📦 模型种类:
Finetuned-Prod: 微调后的主力推理模型(推荐使用)
Pretrained: 仅预训练版本,用于迁移学习
Multilingual Family: 多语种版本(7种语言)
🎯 训练数据:
基于 HuggingFace 格式组织
微调(Finetuning)
建议每个音色用 50~300 条样本即可实现高质量微调
每语言由 2 名专业配音演员录制约 300 句台词
台词中嵌入情绪标签,语言原生化处理
微调参数:全部可训练、bf16 精度、cosine learning rate decay
数据量示例:
中文:20,000 小时
法/德/韩:各 5,000 小时
西/意/印地语:各 1,000 小时
如何使用
在线测试:
用 Google Colab 跑微调版或预训练版(GitHub 里有链接),不用自己装环境。
本地部署:
需要 GPU(推荐 RTX 系列,12GB+ 显存最好)。
装 vLLM(快速推理库),可能得用特定版本(比如 vLLM==0.7.3,避开新版 bug)。
支持 LM Studio 或 llama.cpp 跑本地模型。
微调模型:
改 config.yaml 文件,加入你的语音数据。
跑 train.py 脚本,就能训练自己的专属模型。
GitHub:https://github.com/canopyai/Orpheus-TTS
模型:https://huggingface.co/canopylabs
官网:https://canopylabs.ai/model-releases