📰 正文
Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个 高质量、实时的文本转语音 (TTS) 开源AI 模型,支持 高保真语音克隆。
这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型:一个是 1.6B 参数的 transformer 模型,另一个是 1.6B 参数的混合模型(hybrid)。这些模型以 Apache 2.0 许可证开源发布。
据 Zyphra 评估,Zonos 生成的语音质量可与领先的商业 TTS 提供商(如 ElevenLabs、Cartesia)媲美,甚至更胜一筹。
主要功能与特点:
高保真语音克隆:Zonos 能够根据 5 至 30 秒的语音片段进行高保真语音克隆。
可调语音特性:支持语速、音调、情绪(如悲伤、愤怒、喜悦等)等多种语音特性的控制。
表达性与自然语音生成:Zonos 能够生成非常表达性和自然的语音,支持多种语言,虽然目前以英语为主,但也包含了中文、日语、法语、西班牙语和德语等。
实时语音生成:可以通过 API(支持 Python 和 TypeScript)实现实时语音生成,定价为每分钟 $0.02。提供每月免费 100 分钟,Pro 版每月 300 分钟(5 美元)。
训练与架构:
Zonos 的模型基于 200,000 小时的语音数据进行训练,使用简单的自回归任务来预测音频序列。其音频令牌通过 Descript Audio Codec (DAC) 自动编码器进行处理。
DAC 是一种高比特率自动编码器,旨在提高模型的质量,但也增加了预测任务的复杂性。
🛠 模型架构
Transformer 版本:更传统的深度学习架构,适用于高质量音频生成。
SSM 混合版本(基于 Mamba2 架构):比 Transformer 更快、占用更少内存,适合实时应用。
📡 训练数据
20 万小时的语音训练数据,涵盖:
有声书朗读(标准中性语音)
高情感表达语音(如戏剧对白)
多语言支持(但以英语为主)
🎛 生成细节
44kHz 采样率,确保音质清晰度。
采用 Descript Audio Codec (DAC) 进行高质量音频编码。
自回归建模(Autoregressive),保证语音生成的灵活性,但可能在文本对齐上存在错误(如重复单词)。
模型价格
免费用户:每月 100 分钟免费额度。
Pro 版:$5/月,300 分钟。
企业版:自定义套餐,支持更高并发和定制化需求。
API 访问(Python/TypeScript 兼容),$0.02/分钟 低廉费率。
模型的优缺点:
优势:
高质量的音频生成。
优化的推理引擎,支持低延迟和低内存开销。
可高度自定义生成的语音特性(如情绪和音调)。
挑战与限制:
自回归方法可能会导致音频生成初期和末期出现噪音(如咳嗽、笑声等)。
在生成特定文本时,可能会有错过或重复某些单词的情况。
高比特率自编码器导致推理较慢且成本较高,尽管在高性能硬件(如 RTX 4090)上已达到可接受的延迟。
📥 如何使用?
试用 Zonos:Zonos 试玩页面
下载开源模型:
Transformer 版(Hugging Face)
Hybrid 版(Hugging Face)
获取代码:GitHub 代码仓库
目前 Zonos 处于测试预览阶段。虽然表现非常丰富,但 Zonos 在生成时有时不可靠,导致有趣的失误。
官方介绍:https://www.zyphra.com/post/beta-release-of-zonos-v0-1