📰 正文
MoshiVis 是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型(Vision Speech Model, VSM),由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。
简而言之,它可以“看图说话”,并能与人进行自然的语音对话,同时保持低延迟,适用于真实时间的交互场景。
🌟 MoshiVis = Moshi + 图像理解能力 + 实时语音互动能力
MoshiVis 能做什么?
🖼️ 图像理解:输入一张图像后,模型能以语音方式描述其内容、回答相关问题
🎙️ 实时语音交互:支持全程语音输入输出,保持低延迟(<80ms)
💬 上下文理解:可在一般聊天和图像相关对话之间自由切换,记住上下文
🗣️ 多语音风格:支持模仿不同语调,如海盗口音、耳语等,增加交互趣味性
🧠 内在思维流(Inner Monologue):模拟模型“思考”的过程,用于训练更自然的语音生成
📚 多任务能力:可同时执行图像描述、视觉问答、OCR等多种任务
🧩 主要特点
🧩 能做什么?
MoshiVis 能在对话中自然嵌入视觉理解内容,具体包括:
一些演示
技术细节
- 模型架构:Moshi + Cross-Attention 可视化适配器
保留原有 Moshi 模型(冻结参数);
使用轻量级 Cross-Attention 模块引入视觉信息;
每层加入可控开关门控(Gating),决定是否激活视觉特征;
视觉编码器采用 PaliGemma2-3B-448,图像尺寸为 448px(约1024个 token);
增量参数量约为 206M,不改变原模型推理速度。
- 延迟性能
消费级设备(如配备 M4 Pro 芯片的 MacMini)上推理:
单步延迟:约 55ms
满足实时语音交流需求(低于 80ms 阈值)
使用自研语音编解码器 Mimi(12.5Hz)
🎓 训练方法与数据策略
数据挑战:缺乏大规模语音图像对齐数据
为此 MoshiVis 采用两种策略解决: 1.
“无声图文数据”利用:
使用现成图文对(如 COCO captions、Visual Genome);
融合语音合成工具模拟语音训练输入。
端到端数据效率优化:
一阶段训练方式(One-stage pipeline);
保留语音自然流畅性(低失真、无强制停顿);
精调 Cross-Attention 模块参数以适配视觉任务。
评估结果
🎯 1. 强大的任务性能
在多个视觉任务中表现优异:
OCR-VQA(图像文本识别与问答)
VQAv2(视觉问答)
COCO Captioning(图像描述)
即使只用 <1% 的语音数据训练,模型也能通过语音有效完成任务。
🔄 2. “Speechless” 训练也能成功迁移
不依赖大量语音数据,依靠图文数据(“speechless”)也能学会语音任务。
仅用 5%-10% 的语音数据,就能生成自然、连贯的语音。
极大降低训练成本,为小团队和低资源环境提供了可行路径。
🗣️ 3. 自然的对话生成能力
相比传统图像描述模型,MoshiVis 的语音描述更详细、生动、有上下文连贯性。
虽然在如 CIDEr 等评估指标上略低,但更贴近人类对话风格。
⚡ 4. 实时性能优越
推理延迟仅 55ms/步,适配真实语音对话需求(<80ms)。
可在消费级设备(如 MacMini)上运行,支持长时间、无延迟语音互动。
技术报告:https://arxiv.org/abs/2503.15633
模型下载:https://huggingface.co/datasets/kyutai/Babillage
官方介绍及更多演示:https://kyutai.org/moshivis
在线体验:https://vis.moshi.chat/