MoshiVis：首个开源具备图像理解能力的实时语音模型 可以“看图说话”并以语音形式自然交流

📰 正文

MoshiVis 是首个支持实时语音对话且具备视觉理解能力的开源视觉语音模型（Vision Speech Model, VSM），由 Kyutai 团队基于其语音交互模型 Moshi 扩展而来。

简而言之，它可以“看图说话”，并能与人进行自然的语音对话，同时保持低延迟，适用于真实时间的交互场景。

🌟 MoshiVis = Moshi + 图像理解能力 + 实时语音互动能力

MoshiVis 能做什么？

🖼️ 图像理解：输入一张图像后，模型能以语音方式描述其内容、回答相关问题

🎙️ 实时语音交互：支持全程语音输入输出，保持低延迟（<80ms）

💬 上下文理解：可在一般聊天和图像相关对话之间自由切换，记住上下文

🗣️ 多语音风格：支持模仿不同语调，如海盗口音、耳语等，增加交互趣味性

🧠 内在思维流（Inner Monologue）：模拟模型“思考”的过程，用于训练更自然的语音生成

📚 多任务能力：可同时执行图像描述、视觉问答、OCR等多种任务

🧩 主要特点

🧩 能做什么？

MoshiVis 能在对话中自然嵌入视觉理解内容，具体包括：

一些演示

技术细节

模型架构：Moshi + Cross-Attention 可视化适配器

保留原有 Moshi 模型（冻结参数）；

使用轻量级 Cross-Attention 模块引入视觉信息；

每层加入可控开关门控（Gating），决定是否激活视觉特征；

视觉编码器采用 PaliGemma2-3B-448，图像尺寸为 448px（约1024个 token）；

增量参数量约为 206M，不改变原模型推理速度。

延迟性能

消费级设备（如配备 M4 Pro 芯片的 MacMini）上推理：

单步延迟：约 55ms

满足实时语音交流需求（低于 80ms 阈值）

使用自研语音编解码器 Mimi（12.5Hz）

🎓 训练方法与数据策略

数据挑战：缺乏大规模语音图像对齐数据

为此 MoshiVis 采用两种策略解决： 1.

“无声图文数据”利用：

使用现成图文对（如 COCO captions、Visual Genome）；

融合语音合成工具模拟语音训练输入。

端到端数据效率优化：

一阶段训练方式（One-stage pipeline）；

保留语音自然流畅性（低失真、无强制停顿）；

精调 Cross-Attention 模块参数以适配视觉任务。

评估结果

🎯 1. 强大的任务性能

在多个视觉任务中表现优异：

OCR-VQA（图像文本识别与问答）

VQAv2（视觉问答）

COCO Captioning（图像描述）

即使只用 <1% 的语音数据训练，模型也能通过语音有效完成任务。

🔄 2. “Speechless” 训练也能成功迁移

不依赖大量语音数据，依靠图文数据（“speechless”）也能学会语音任务。

仅用 5%-10% 的语音数据，就能生成自然、连贯的语音。

极大降低训练成本，为小团队和低资源环境提供了可行路径。

🗣️ 3. 自然的对话生成能力

相比传统图像描述模型，MoshiVis 的语音描述更详细、生动、有上下文连贯性。

虽然在如 CIDEr 等评估指标上略低，但更贴近人类对话风格。

⚡ 4. 实时性能优越

推理延迟仅 55ms/步，适配真实语音对话需求（<80ms）。

可在消费级设备（如 MacMini）上运行，支持长时间、无延迟语音互动。

技术报告：https://arxiv.org/abs/2503.15633

模型下载：https://huggingface.co/datasets/kyutai/Babillage

官方介绍及更多演示：https://kyutai.org/moshivis

在线体验：https://vis.moshi.chat/

📰 正文#

📰 正文