SoulX-Podcast ：可以稳定生成90分钟多人对话播客的语音模型

📰 正文

SoulX-Podcast 是由 Soul AI Lab（Soul应用背后的AI实验室）开发的高保真播客生成推理框架，旨在从文本直接生成长篇、多说话人、对话式语音内容。

SoulX-Podcast ：

实现了高真实度、长时段、多说话人、多语种（中英双语 + 多方言）播客式语音生成，具备方言与副语言（如笑声、叹气等）控制能力。

实验证明模型可连续生成 90 分钟以上的对话内容而不失稳定性。

SoulX-Podcast 在传统 TTS（Text-to-Speech）基础上进行了扩展，能够：

生成多说话人、多轮对话形式的语音内容；

在语音中融入副语言特征（paralinguistic cues）；

支持普通话、英语及多种中文方言；

在零样本（zero-shot）条件下完成声音与语气的克隆与迁移。

主要功能

多说话人长对话生成

系统可在无外部干预下，生成长达 90 分钟以上的自然多轮对话。

音色与说话风格在整段对话中保持稳定；

不同角色语气和节奏自然衔接，无明显断层；

语义层面具备“话题延展性”，可保持上下文关联。

该成果在播客、访谈、虚拟角色对话等场景中具有高应用潜力。

方言控制与切换能力

系统支持多种方言生成与实时切换，包括：

粤语（Cantonese）

四川话（Sichuanese）

河南话（Henanese）

特点：

方言转换后仍保持原说话人音色一致；

能根据语境自动调整节奏与语调；

在跨方言对话中实现平滑语音过渡。

示例对话显示，模型可生成两位主持人分别使用不同方言交流的播客片段，听感自然流畅。

副语言控制（Paralinguistic Controls）

该模块允许文本中显式标注副语言符号，如：

<|laughter|>, <|sigh|>, <|breathing|>, <|coughing|>

在生成语音中体现为自然的笑声、叹息声、呼吸声等。其作用包括：

提升语音表达的真实感与感染力；

改善播客式语音的韵律变化与情绪丰富度；

支持情境化生成（如“幽默场景”“紧张对话”）。

长时播客生成（Long-form Generation）

模型在长达 60–90分钟的播客生成中展示出以下特性：

音色稳定，未出现“音质漂移”或“声色坍塌”；

情感延续性强，能根据语义逻辑自然调整语气；

语速与语调符合人类自然交流规律；

听觉效果接近真实人声播客。

实验表明，该模型在自然度（MOS）与连贯性（Coherence）指标上均优于现有TTS系统。

SoulX-Podcast 模型结构

该模型基于多说话人 TTS 框架扩展，具有以下特征：

实验结果

在多项客观与主观评测中，SoulX-Podcast 均达到 SOTA（state-of-the-art）性能：

此外，主观听感实验表明：

92% 的听众认为生成音频“接近真人播客”；

87% 的听众在盲测中无法区分AI生成与真实语音。

项目地址：https://soul-ailab.github.io/soulx-podcast/

GitHub：https://github.com/Soul-AILab/SoulX-Podcast

模型下载：https://huggingface.co/collections/Soul-AILab/soulx-podcast

来源：SoulX-Podcast ：可以稳定生成90分钟多人对话播客的语音模型

📰 正文#

📰 正文