📰 正文

Inworld TTS 是一款面向实时语音交互与数字角色开发的高端语音AI系统,集成:

Text-to-Speech(TTS)语音合成

Voice Cloning(声音克隆)

多语言与情感语音控制

实时流式生成(Streaming)

非语言表达(non-verbal control)

核心目标:

让开发者在“亚秒级延迟”内生成自然、情绪化、多语言语音,服务游戏、虚拟角色、客服、教育及AI代理场景。

模型版本

image

💡 WER(Word Error Rate)和 SIM(Speaker Similarity)两项指标均优于业界主流系统,在 Hugging Face TTS Arena 上排名第一。

Inworld TTS 1 Max 在 Artificial Analysis 文本转语音排行榜上排名第一

image

实测语音更加流畅、自然、情感连贯。

核心优势与特性

image

时间戳对齐(Timestamp Alignment)

功能定位: 让音频与视觉或动作完美同步。

开发用途:

唇形同步(lip-sync)

高亮当前发音词(字幕动画)

游戏事件触发(特定词时执行动作)

用户打断检测(识别语音播放到哪)

image

🎯 技术层级

image

📍目前支持:

英语(流式与非流式)

其他语言处于实验阶段

语音克隆(Voice Cloning)系统

⚙️ 即时克隆(Instant Cloning)

上传 2~15 秒音频 → 模型自动生成匹配声线。

可在应用端通过 API 完成,无需 UI 操作。

可直接在自有平台创建、管理或批量生成自定义语音。

🧠 专业克隆(Fine-tuned Cloning)

对语音特征进行深度学习,以实现高保真复刻。

适合品牌代言、虚拟偶像、游戏主角等场景。


语音标签(Voice Tags)与非语言表达

Inworld TTS 可控制:

语音情绪(emotion):愤怒、悲伤、喜悦、平静

表达方式(delivery style):低语、坚定、戏剧化、轻快

非语言元素(non-verbal sounds):笑声、叹气、呼吸、轻笑

这些标签可在文本中通过**音频标记(audio markup)**插入,实现类似“舞台表演式”语音输出。 👉 这是当前唯一可在TTS中同时表达“语义 + 情绪 +表演感”的方案之一。

价值:

游戏/元宇宙场景中,角色自动匹配合适声线。

企业系统中,运行时根据用户属性选择语音风格。

大规模语音数据库管理更高效。

语言支持(Multilingual Coverage)

当前支持:

英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、日语、韩语、荷兰语、波兰语、俄语

所有语言均具备“母语自然度(native-speaker fluency)”

语音克隆支持跨语言迁移: 同一声线可在英语与中文间平滑切换。

自定义发音(Custom Pronunciation)

🗣️ 功能目标

解决标准TTS经常念错的问题,尤其是:

品牌名(Nike、IKEA、Huawei)

人名、地名

医学/技术术语

方言或虚构语言(游戏、小说)


💡 实现方式

支持 国际音标(IPA, International Phonetic Alphabet) → 开发者可直接在文本中插入音标来精确控制发音。

工具建议:

可用 ChatGPT 或 IPA 词典(如 Vocabulary.com IPA Guide)获取音标。

WebSocket 实时语音流

🌐 为什么引入 WebSocket?

HTTP 每次请求都需重新建立连接,不适合实时语音交互(如 AI 对话角色)。 WebSocket 允许:

持续连接

低延迟流式传输

可中途更新参数或打断

image

🕹️ 典型应用场景

游戏中的可打断型NPC对话

智能客服(支持 barge-in,即用户打断AI说话)

LLM(如 GPT)实时语音代理

应用与集成场景

image

API 与生态集成

可接入方式:

Inworld API / SDK

WebSocket 流式实时输出

TTS Playground(可视化测试环境)

第三方平台集成:

🧩 LiveKit(实时语音AI)

⚙️ NLX(多渠道语音体验平台)

🧠 Pipecat、Vapi(语音代理框架)

开放研究与开源策略

Inworld 已开源完整TTS训练框架,包括:

声码器(codec)

语言模型(SpeechLM)

微调工具链(Fine-tuning toolkit)

GitHub:https://github.com/inworld-ai/tts

在线体验:https://platform.inworld.ai/signup

API:https://docs.inworld.ai/api-reference/ttsAPI/texttospeech/synthesize-speech

官网:https://inworld.ai/tts


来源:Inworld TTS :能在0.25 秒内生成带情绪、语气、非语言细节的多语言语音模型 支持秒级声线克隆和实时对话流