Zonos：一个 高质量、实时的文本转语音 (TTS) 开源模型，支持高保真语音克隆 媲美ElevenLabs

📰 正文

Zyphra 团队发布 Zonos v0.1 的 beta 。这是一个高质量、实时的文本转语音 (TTS) 开源AI 模型，支持高保真语音克隆。

这个版本引入了两种具有高保真语音克隆的实时文本到语音 (TTS) 模型：一个是 1.6B 参数的 transformer 模型，另一个是 1.6B 参数的混合模型（hybrid）。这些模型以 Apache 2.0 许可证开源发布。

据 Zyphra 评估，Zonos 生成的语音质量可与领先的商业 TTS 提供商（如 ElevenLabs、Cartesia）媲美，甚至更胜一筹。

主要功能与特点：

高保真语音克隆：Zonos 能够根据 5 至 30 秒的语音片段进行高保真语音克隆。

可调语音特性：支持语速、音调、情绪（如悲伤、愤怒、喜悦等）等多种语音特性的控制。

表达性与自然语音生成：Zonos 能够生成非常表达性和自然的语音，支持多种语言，虽然目前以英语为主，但也包含了中文、日语、法语、西班牙语和德语等。

实时语音生成：可以通过 API（支持 Python 和 TypeScript）实现实时语音生成，定价为每分钟 $0.02。提供每月免费 100 分钟，Pro 版每月 300 分钟（5 美元）。

训练与架构：

Zonos 的模型基于 200,000 小时的语音数据进行训练，使用简单的自回归任务来预测音频序列。其音频令牌通过 Descript Audio Codec (DAC) 自动编码器进行处理。

DAC 是一种高比特率自动编码器，旨在提高模型的质量，但也增加了预测任务的复杂性。

🛠 模型架构

Transformer 版本：更传统的深度学习架构，适用于高质量音频生成。

SSM 混合版本（基于 Mamba2 架构）：比 Transformer 更快、占用更少内存，适合实时应用。

📡 训练数据

20 万小时的语音训练数据，涵盖：

有声书朗读（标准中性语音）

高情感表达语音（如戏剧对白）

多语言支持（但以英语为主）

🎛 生成细节

44kHz 采样率，确保音质清晰度。

采用 Descript Audio Codec (DAC) 进行高质量音频编码。

自回归建模（Autoregressive），保证语音生成的灵活性，但可能在文本对齐上存在错误（如重复单词）。

模型价格

免费用户：每月 100 分钟免费额度。

Pro 版：$5/月，300 分钟。

企业版：自定义套餐，支持更高并发和定制化需求。

API 访问（Python/TypeScript 兼容），$0.02/分钟低廉费率。

模型的优缺点：

优势：

高质量的音频生成。

优化的推理引擎，支持低延迟和低内存开销。

可高度自定义生成的语音特性（如情绪和音调）。

挑战与限制：

自回归方法可能会导致音频生成初期和末期出现噪音（如咳嗽、笑声等）。

在生成特定文本时，可能会有错过或重复某些单词的情况。

高比特率自编码器导致推理较慢且成本较高，尽管在高性能硬件（如 RTX 4090）上已达到可接受的延迟。

📥 如何使用？

试用 Zonos：Zonos 试玩页面

下载开源模型：

Transformer 版（Hugging Face）

Hybrid 版（Hugging Face）

获取代码：GitHub 代码仓库

目前 Zonos 处于测试预览阶段。虽然表现非常丰富，但 Zonos 在生成时有时不可靠，导致有趣的失误。

官方介绍：https://www.zyphra.com/post/beta-release-of-zonos-v0-1

来源： Zonos：一个高质量、实时的文本转语音 (TTS) 开源模型，支持高保真语音克隆媲美ElevenLabs

📰 正文#

📰 正文