📰 正文

中文视觉语音开源模型来了

VITA-1.5 是一个开源的多模态大语言模型,旨在实现 视觉、语音和文本的实时交互能力。

它是 VITA 项目的升级版本,目标是达到接近 GPT-4o 级别的多模态性能,特别适合处理图片、视频和语音数据的任务。

支持 多模态融合 和 实时交互,可处理复杂的视觉、语音和文本任务。

类似GPT 4o的高级语音和实时视觉能力,可分析图片和视频内容,提供描述、回答问题等能力。

端到端 TTS(文本到语音转换)模块

支持语音识别(ASR)和文本到语音(TTS)转换。

语音交互延迟约 1.5 秒,接近实时的用户体验。

VITA-1.5 的主要功能

  1. 看懂图片和视频

图片描述:它可以告诉你图片里是什么,比如“这是一只正在吃草的羊”。

视频理解:还能从视频中提取关键信息,比如描述一个短视频的内容或回答和视频相关的问题。

问答功能:你可以问它“这张图片里有什么?”或者“视频里的人在做什么?”它会回答你。

  1. 听懂语音,还能回答你

语音识别(ASR):

能听懂中英文语音,比如你说“今天的天气怎么样?”它会转成文字,理解你的问题。

准确率很高,中文语音错误率只有 2.2%,英文的错误率也很低(3.3%)。

语音回答(TTS):

它可以直接用语音回答你,而不是只给你一段文字。

它的语音听起来很自然,就像真人在和你对话。

  1. 实时互动

超级快的反应:

语音交互延迟从 VITA-1.0 的 4 秒降至 1.5 秒

这意味着你可以和它无缝对话,不会有太多等待。

  1. 多种技能集成

整合能力强:图片、语音、文字都能无缝结合。

比如你给它一张图片,还用语音问问题,它会根据图片和问题一起给你答案。

任务多样:从图片描述到语音问答再到视频分析,它都能搞定。

5.出色的多模态性能

视觉理解:在图片和视频任务中的表现接近顶尖模型。

语音处理:在语音识别和生成任务中超越多个专用语音模型。

多模态整合:实现视觉、语音和语言之间的无缝转换。

VITA-1.5 的技术方法

image

  1. 模型架构

1.1 输入模块 1.

视觉输入:

使用 InternViT-300M 作为视觉编码器,处理图片和视频输入。

支持动态切片(Dynamic Patching),以提高对高分辨率图片的理解。

视频处理方式:

短视频(<4秒):均匀采样 4 帧。

中视频(4-16秒):每秒采样 1 帧。

长视频(>16秒):最多均匀采样 16 帧。

语音输入:

语音编码器:通过卷积层和 Transformer 结构编码语音特征。

特征处理:将语音信号转化为 Mel 滤波器特征,采样率为 24kHz,输出帧率为 12.5Hz。

输出语音特征:经过降采样,语音编码器可提取语音的文本表示。

多模态适配器:

视觉和语音输入通过各自的适配器(Adapter)映射到语言模型(LLM)可以理解的特征空间。

1.2 中间处理模块

多模态融合:

将视觉、语音和语言特征输入到预训练的语言模型(LLM)中。

LLM 的核心是 Qwen-7B 模型,用于处理语言理解和生成任务。

1.3 输出模块 1.

文本输出:

直接生成文字答案或描述。

语音输出:

使用两级语音解码器:

非自回归解码器(NAR):快速生成全局语义特征。

自回归解码器(AR):基于 NAR 结果逐步生成高质量语音。

输出语音的生成通过 Codec 模型实现,支持 24kHz 的高质量语音。


  1. 训练方法

2.1 三阶段训练策略

为了同时优化视觉、语音和语言能力,VITA-1.5 使用了逐步引入不同模态的三阶段训练方法: 1.

第一阶段:视觉-语言训练

视觉对齐:

用 20% 的图像描述数据(如图片生成的文字描述)训练视觉适配器和 LLM。

视觉理解:

用全部图像描述数据训练视觉编码器和适配器,提升图片内容的语言生成能力。

视觉任务微调(SFT):

使用视觉问答数据(如科学问答、数学推理)训练模型,使其能够根据图片回答问题。

第二阶段:语音输入调整

语音对齐:

使用 11,000 小时的语音-文本配对数据训练语音编码器,让语音特征与语言模型对齐。

语音问答训练:

引入语音版问答任务,让模型能够根据语音问题生成文字答案。

第三阶段:语音输出训练

语音解码器训练:

使用 3,000 小时文本-语音配对数据训练 Codec 模型,将文本嵌入生成高质量语音。

自回归与非自回归解码:

通过非自回归解码生成全局语义,再通过自回归解码生成高保真语音。

image

2.2 数据使用

数据覆盖多个模态和任务:

视觉数据:包括图片描述、图片问答、OCR、科学图表理解等。

语音数据:语音到文本、文本到语音配对数据(覆盖中文和英文)。

文本数据:用于支持语言理解和生成。


  1. 技术亮点

3.1 高效的架构设计 1.

端到端设计:

VITA-1.5 将视觉、语音和语言处理整合到一个系统中,避免传统方法依赖多个独立模块(如 ASR 和 TTS)的高延迟问题。

减少了处理时间,使系统更高效。

多模态融合:

通过视觉和语音适配器,解决了视觉和语音特征在语义空间上的冲突问题。

3.2 语音和视觉性能平衡

通过逐步引入模态数据的训练策略,确保增加语音能力的同时,不会显著降低视觉理解的能力。

3.3 实时交互能力

优化了语音交互延迟:

VITA-1.5 的语音响应时间从 4 秒减少到 1.5 秒,接近实时体验。

总体评价

优势: 1.

高精度:在视觉、语音和多模态任务中性能达到行业领先水平。

实时交互:1.5 秒的语音响应延迟,提供接近实时的用户体验。

多模态整合:图片、语音和文本的联合处理能力强大,任务表现优异。

适用场景:

智能助手

教育与培训

医疗信息辅助

视频和图片分析

image

GitHub:https://github.com/VITA-MLLM/VITA

论文:https://arxiv.org/pdf/2501.01957


来源:VITA-1.5:多模态中文视觉语音开源模型 能进行图像和视频