微软开源 VibeVoice：前沿级语音AI模型，支持实时对话与声音克隆

微软在GitHub上正式开源了VibeVoice语音AI模型，支持高质量文本转语音（TTS）、实时语音对话和声音克隆功能，为开源语音AI领域注入新的前沿力量。

微软近日在GitHub上开源了VibeVoice——一款前沿级的语音AI模型，支持文本转语音（TTS）、实时语音对话和声音克隆等多种功能。该项目的发布标志着微软在开源语音AI领域的又一重要布局。

核心功能

VibeVoice 提供以下主要能力：

VibeVoice 的发布正值开源语音AI领域竞争白热化。近期，多家机构已发布类似的开源语音模型：

微软的VibeVoice凭借其在实时对话和声音克隆方面的优势，有望在这一竞争激烈的领域中占据重要位置。

开源语音AI的发展正在降低语音技术的门槛，使得更多开发者和企业能够构建自己的语音应用。VibeVoice 的开源将推动以下领域的发展：

此次开源是微软在AI领域持续推进开放战略的又一举措。从CodeBERT到Phi系列语言模型，再到如今的VibeVoice，微软正在逐步将更多前沿AI能力开放给社区。