📰 正文

MoshiVis 是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型(Vision Speech Model, VSM),由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。

简而言之,它可以“看图说话”,并能与人进行自然的语音对话,同时保持低延迟,适用于真实时间的交互场景。

🌟 MoshiVis = Moshi + 图像理解能力 + 实时语音互动能力

MoshiVis 能做什么?

🖼️ 图像理解:输入一张图像后,模型能以语音方式描述其内容、回答相关问题

🎙️ 实时语音交互:支持全程语音输入输出,保持低延迟(<80ms)

💬 上下文理解:可在一般聊天和图像相关对话之间自由切换,记住上下文

🗣️ 多语音风格:支持模仿不同语调,如海盗口音、耳语等,增加交互趣味性

🧠 内在思维流(Inner Monologue):模拟模型“思考”的过程,用于训练更自然的语音生成

📚 多任务能力:可同时执行图像描述、视觉问答、OCR等多种任务

🧩 主要特点

image

🧩 能做什么?

MoshiVis 能在对话中自然嵌入视觉理解内容,具体包括:

image

image

一些演示

技术细节

  1. 模型架构:Moshi + Cross-Attention 可视化适配器

保留原有 Moshi 模型(冻结参数);

使用轻量级 Cross-Attention 模块引入视觉信息;

每层加入可控开关门控(Gating),决定是否激活视觉特征;

视觉编码器采用 PaliGemma2-3B-448,图像尺寸为 448px(约1024个 token);

增量参数量约为 206M,不改变原模型推理速度。

image

  1. 延迟性能

消费级设备(如配备 M4 Pro 芯片的 MacMini)上推理:

单步延迟:约 55ms

满足实时语音交流需求(低于 80ms 阈值)

使用自研语音编解码器 Mimi(12.5Hz)


🎓 训练方法与数据策略

数据挑战:缺乏大规模语音图像对齐数据

为此 MoshiVis 采用两种策略解决: 1.

“无声图文数据”利用:

使用现成图文对(如 COCO captions、Visual Genome);

融合语音合成工具模拟语音训练输入。

端到端数据效率优化:

一阶段训练方式(One-stage pipeline);

保留语音自然流畅性(低失真、无强制停顿);

精调 Cross-Attention 模块参数以适配视觉任务。

评估结果

🎯 1. 强大的任务性能

在多个视觉任务中表现优异:

OCR-VQA(图像文本识别与问答)

VQAv2(视觉问答)

COCO Captioning(图像描述)

即使只用 <1% 的语音数据训练,模型也能通过语音有效完成任务。

image


🔄 2. “Speechless” 训练也能成功迁移

不依赖大量语音数据,依靠图文数据(“speechless”)也能学会语音任务。

仅用 5%-10% 的语音数据,就能生成自然、连贯的语音。

极大降低训练成本,为小团队和低资源环境提供了可行路径。


🗣️ 3. 自然的对话生成能力

相比传统图像描述模型,MoshiVis 的语音描述更详细、生动、有上下文连贯性。

虽然在如 CIDEr 等评估指标上略低,但更贴近人类对话风格。

image


⚡ 4. 实时性能优越

推理延迟仅 55ms/步,适配真实语音对话需求(<80ms)。

可在消费级设备(如 MacMini)上运行,支持长时间、无延迟语音互动。

image

技术报告:https://arxiv.org/abs/2503.15633

模型下载:https://huggingface.co/datasets/kyutai/Babillage

官方介绍及更多演示:https://kyutai.org/moshivis

在线体验:https://vis.moshi.chat/


来源:MoshiVis:首个开源具备图像理解能力的实时语音模型 可以“看图说话”并以语音形式自然交流