📰 正文
中文视觉语音开源模型来了
VITA-1.5 是一个开源的多模态大语言模型,旨在实现 视觉、语音和文本的实时交互能力。
它是 VITA 项目的升级版本,目标是达到接近 GPT-4o 级别的多模态性能,特别适合处理图片、视频和语音数据的任务。
支持 多模态融合 和 实时交互,可处理复杂的视觉、语音和文本任务。
类似GPT 4o的高级语音和实时视觉能力,可分析图片和视频内容,提供描述、回答问题等能力。
端到端 TTS(文本到语音转换)模块
支持语音识别(ASR)和文本到语音(TTS)转换。
语音交互延迟约 1.5 秒,接近实时的用户体验。
VITA-1.5 的主要功能
- 看懂图片和视频
图片描述:它可以告诉你图片里是什么,比如“这是一只正在吃草的羊”。
视频理解:还能从视频中提取关键信息,比如描述一个短视频的内容或回答和视频相关的问题。
问答功能:你可以问它“这张图片里有什么?”或者“视频里的人在做什么?”它会回答你。
- 听懂语音,还能回答你
语音识别(ASR):
能听懂中英文语音,比如你说“今天的天气怎么样?”它会转成文字,理解你的问题。
准确率很高,中文语音错误率只有 2.2%,英文的错误率也很低(3.3%)。
语音回答(TTS):
它可以直接用语音回答你,而不是只给你一段文字。
它的语音听起来很自然,就像真人在和你对话。
- 实时互动
超级快的反应:
语音交互延迟从 VITA-1.0 的 4 秒降至 1.5 秒
这意味着你可以和它无缝对话,不会有太多等待。
- 多种技能集成
整合能力强:图片、语音、文字都能无缝结合。
比如你给它一张图片,还用语音问问题,它会根据图片和问题一起给你答案。
任务多样:从图片描述到语音问答再到视频分析,它都能搞定。
5.出色的多模态性能
视觉理解:在图片和视频任务中的表现接近顶尖模型。
语音处理:在语音识别和生成任务中超越多个专用语音模型。
多模态整合:实现视觉、语音和语言之间的无缝转换。
VITA-1.5 的技术方法
- 模型架构
1.1 输入模块 1.
视觉输入:
使用 InternViT-300M 作为视觉编码器,处理图片和视频输入。
支持动态切片(Dynamic Patching),以提高对高分辨率图片的理解。
视频处理方式:
短视频(<4秒):均匀采样 4 帧。
中视频(4-16秒):每秒采样 1 帧。
长视频(>16秒):最多均匀采样 16 帧。
语音输入:
语音编码器:通过卷积层和 Transformer 结构编码语音特征。
特征处理:将语音信号转化为 Mel 滤波器特征,采样率为 24kHz,输出帧率为 12.5Hz。
输出语音特征:经过降采样,语音编码器可提取语音的文本表示。
多模态适配器:
视觉和语音输入通过各自的适配器(Adapter)映射到语言模型(LLM)可以理解的特征空间。
1.2 中间处理模块
多模态融合:
将视觉、语音和语言特征输入到预训练的语言模型(LLM)中。
LLM 的核心是 Qwen-7B 模型,用于处理语言理解和生成任务。
1.3 输出模块 1.
文本输出:
直接生成文字答案或描述。
语音输出:
使用两级语音解码器:
非自回归解码器(NAR):快速生成全局语义特征。
自回归解码器(AR):基于 NAR 结果逐步生成高质量语音。
输出语音的生成通过 Codec 模型实现,支持 24kHz 的高质量语音。
- 训练方法
2.1 三阶段训练策略
为了同时优化视觉、语音和语言能力,VITA-1.5 使用了逐步引入不同模态的三阶段训练方法: 1.
第一阶段:视觉-语言训练
视觉对齐:
用 20% 的图像描述数据(如图片生成的文字描述)训练视觉适配器和 LLM。
视觉理解:
用全部图像描述数据训练视觉编码器和适配器,提升图片内容的语言生成能力。
视觉任务微调(SFT):
使用视觉问答数据(如科学问答、数学推理)训练模型,使其能够根据图片回答问题。
第二阶段:语音输入调整
语音对齐:
使用 11,000 小时的语音-文本配对数据训练语音编码器,让语音特征与语言模型对齐。
语音问答训练:
引入语音版问答任务,让模型能够根据语音问题生成文字答案。
第三阶段:语音输出训练
语音解码器训练:
使用 3,000 小时文本-语音配对数据训练 Codec 模型,将文本嵌入生成高质量语音。
自回归与非自回归解码:
通过非自回归解码生成全局语义,再通过自回归解码生成高保真语音。
2.2 数据使用
数据覆盖多个模态和任务:
视觉数据:包括图片描述、图片问答、OCR、科学图表理解等。
语音数据:语音到文本、文本到语音配对数据(覆盖中文和英文)。
文本数据:用于支持语言理解和生成。
- 技术亮点
3.1 高效的架构设计 1.
端到端设计:
VITA-1.5 将视觉、语音和语言处理整合到一个系统中,避免传统方法依赖多个独立模块(如 ASR 和 TTS)的高延迟问题。
减少了处理时间,使系统更高效。
多模态融合:
通过视觉和语音适配器,解决了视觉和语音特征在语义空间上的冲突问题。
3.2 语音和视觉性能平衡
通过逐步引入模态数据的训练策略,确保增加语音能力的同时,不会显著降低视觉理解的能力。
3.3 实时交互能力
优化了语音交互延迟:
VITA-1.5 的语音响应时间从 4 秒减少到 1.5 秒,接近实时体验。
总体评价
优势: 1.
高精度:在视觉、语音和多模态任务中性能达到行业领先水平。
实时交互:1.5 秒的语音响应延迟,提供接近实时的用户体验。
多模态整合:图片、语音和文本的联合处理能力强大,任务表现优异。
适用场景:
智能助手
教育与培训
医疗信息辅助
视频和图片分析
GitHub:https://github.com/VITA-MLLM/VITA
论文:https://arxiv.org/pdf/2501.01957