VITA-1.5：多模态中文视觉语音开源模型 能进行图像和视频

📰 正文

中文视觉语音开源模型来了

VITA-1.5 是一个开源的多模态大语言模型，旨在实现视觉、语音和文本的实时交互能力。

它是 VITA 项目的升级版本，目标是达到接近 GPT-4o 级别的多模态性能，特别适合处理图片、视频和语音数据的任务。

支持多模态融合和实时交互，可处理复杂的视觉、语音和文本任务。

类似GPT 4o的高级语音和实时视觉能力，可分析图片和视频内容，提供描述、回答问题等能力。

端到端 TTS（文本到语音转换）模块

支持语音识别（ASR）和文本到语音（TTS）转换。

语音交互延迟约 1.5 秒，接近实时的用户体验。

VITA-1.5 的主要功能

看懂图片和视频

图片描述：它可以告诉你图片里是什么，比如“这是一只正在吃草的羊”。

视频理解：还能从视频中提取关键信息，比如描述一个短视频的内容或回答和视频相关的问题。

问答功能：你可以问它“这张图片里有什么？”或者“视频里的人在做什么？”它会回答你。

听懂语音，还能回答你

语音识别（ASR）：

能听懂中英文语音，比如你说“今天的天气怎么样？”它会转成文字，理解你的问题。

准确率很高，中文语音错误率只有 2.2%，英文的错误率也很低（3.3%）。

语音回答（TTS）：

它可以直接用语音回答你，而不是只给你一段文字。

它的语音听起来很自然，就像真人在和你对话。

实时互动

超级快的反应：

语音交互延迟从 VITA-1.0 的 4 秒降至 1.5 秒

这意味着你可以和它无缝对话，不会有太多等待。

多种技能集成

整合能力强：图片、语音、文字都能无缝结合。

比如你给它一张图片，还用语音问问题，它会根据图片和问题一起给你答案。

任务多样：从图片描述到语音问答再到视频分析，它都能搞定。

5.出色的多模态性能

视觉理解：在图片和视频任务中的表现接近顶尖模型。

语音处理：在语音识别和生成任务中超越多个专用语音模型。

多模态整合：实现视觉、语音和语言之间的无缝转换。

VITA-1.5 的技术方法

模型架构

1.1 输入模块 1.

视觉输入：

使用 InternViT-300M 作为视觉编码器，处理图片和视频输入。

支持动态切片（Dynamic Patching），以提高对高分辨率图片的理解。

视频处理方式：

短视频（<4秒）：均匀采样 4 帧。

中视频（4-16秒）：每秒采样 1 帧。

长视频（>16秒）：最多均匀采样 16 帧。

语音输入：

语音编码器：通过卷积层和 Transformer 结构编码语音特征。

特征处理：将语音信号转化为 Mel 滤波器特征，采样率为 24kHz，输出帧率为 12.5Hz。

输出语音特征：经过降采样，语音编码器可提取语音的文本表示。

多模态适配器：

视觉和语音输入通过各自的适配器（Adapter）映射到语言模型（LLM）可以理解的特征空间。

1.2 中间处理模块

多模态融合：

将视觉、语音和语言特征输入到预训练的语言模型（LLM）中。

LLM 的核心是 Qwen-7B 模型，用于处理语言理解和生成任务。

1.3 输出模块 1.

文本输出：

直接生成文字答案或描述。

语音输出：

使用两级语音解码器：

非自回归解码器（NAR）：快速生成全局语义特征。

自回归解码器（AR）：基于 NAR 结果逐步生成高质量语音。

输出语音的生成通过 Codec 模型实现，支持 24kHz 的高质量语音。

训练方法

2.1 三阶段训练策略

为了同时优化视觉、语音和语言能力，VITA-1.5 使用了逐步引入不同模态的三阶段训练方法： 1.

第一阶段：视觉-语言训练

视觉对齐：

用 20% 的图像描述数据（如图片生成的文字描述）训练视觉适配器和 LLM。

视觉理解：

用全部图像描述数据训练视觉编码器和适配器，提升图片内容的语言生成能力。

视觉任务微调（SFT）：

使用视觉问答数据（如科学问答、数学推理）训练模型，使其能够根据图片回答问题。

第二阶段：语音输入调整

语音对齐：

使用 11,000 小时的语音-文本配对数据训练语音编码器，让语音特征与语言模型对齐。

语音问答训练：

引入语音版问答任务，让模型能够根据语音问题生成文字答案。

第三阶段：语音输出训练

语音解码器训练：

使用 3,000 小时文本-语音配对数据训练 Codec 模型，将文本嵌入生成高质量语音。

自回归与非自回归解码：

通过非自回归解码生成全局语义，再通过自回归解码生成高保真语音。

2.2 数据使用

数据覆盖多个模态和任务：

视觉数据：包括图片描述、图片问答、OCR、科学图表理解等。

语音数据：语音到文本、文本到语音配对数据（覆盖中文和英文）。

文本数据：用于支持语言理解和生成。

技术亮点

3.1 高效的架构设计 1.

端到端设计：

VITA-1.5 将视觉、语音和语言处理整合到一个系统中，避免传统方法依赖多个独立模块（如 ASR 和 TTS）的高延迟问题。

减少了处理时间，使系统更高效。

多模态融合：

通过视觉和语音适配器，解决了视觉和语音特征在语义空间上的冲突问题。

3.2 语音和视觉性能平衡

通过逐步引入模态数据的训练策略，确保增加语音能力的同时，不会显著降低视觉理解的能力。

3.3 实时交互能力

优化了语音交互延迟：

VITA-1.5 的语音响应时间从 4 秒减少到 1.5 秒，接近实时体验。

总体评价

优势： 1.

高精度：在视觉、语音和多模态任务中性能达到行业领先水平。

实时交互：1.5 秒的语音响应延迟，提供接近实时的用户体验。

多模态整合：图片、语音和文本的联合处理能力强大，任务表现优异。

适用场景：

智能助手

教育与培训

医疗信息辅助

视频和图片分析

GitHub：https://github.com/VITA-MLLM/VITA

论文：https://arxiv.org/pdf/2501.01957

来源：VITA-1.5：多模态中文视觉语音开源模型能进行图像和视频

📰 正文#

📰 正文