微软开源 VibeVoice:前沿级语音AI模型,支持实时对话与声音克隆

微软在GitHub上正式开源了VibeVoice语音AI模型,支持高质量文本转语音(TTS)、实时语音对话和声音克隆功能,为开源语音AI领域注入新的前沿力量。


微软近日在GitHub上开源了VibeVoice——一款前沿级的语音AI模型,支持文本转语音(TTS)、实时语音对话和声音克隆等多种功能。该项目的发布标志着微软在开源语音AI领域的又一重要布局。

核心功能

VibeVoice 提供以下主要能力:

  • 高质量文本转语音:生成自然、流畅的语音输出,音质达到商用级别
  • 实时语音对话:支持低延迟的双向语音交互,适用于智能助手和客服场景
  • 声音克隆:仅需少量样本即可克隆目标说话人的声音特征
  • 多语言支持:支持包括中文、英文在内的多种语言

开源语音AI的竞争格局

VibeVoice 的发布正值开源语音AI领域竞争白热化。近期,多家机构已发布类似的开源语音模型:

  • Fish Audio S2(4B参数TTS,100ms出声)
  • Qwen3-TTS(阿里巴巴开源的全能语音系统)
  • MegaTTS3(字节跳动的第三代语音合成系统,0.45B参数)
  • Orpheus Speech(基于Llama-3B的开源语音模型)
  • IndexTTS2(零样本TTS,支持情感和时长可控)

微软的VibeVoice凭借其在实时对话和声音克隆方面的优势,有望在这一竞争激烈的领域中占据重要位置。

技术意义

开源语音AI的发展正在降低语音技术的门槛,使得更多开发者和企业能够构建自己的语音应用。VibeVoice 的开源将推动以下领域的发展:

  1. 智能助手:为个人和企业级语音助手提供更高质量的语音输出
  2. 无障碍技术:帮助视障和阅读障碍用户更好地获取信息
  3. 内容创作:为播客、有声书和视频内容提供低成本的高质量配音方案
  4. 教育应用:为语言学习和教育内容生成自然的语音素材

微软的开源战略

此次开源是微软在AI领域持续推进开放战略的又一举措。从CodeBERT到Phi系列语言模型,再到如今的VibeVoice,微软正在逐步将更多前沿AI能力开放给社区。


来源: GitHub - Microsoft VibeVoice