📰 正文

面壁智能推出 MiniCPM-o 2.6,一个 8B 大小、匹敌GPT-4o 级别的全能模型,可在移动设备上运行

  • 领先的视觉能力:超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等

  • 支持中英双语实时语音对话,并提供情感/速度/风格控制、端到端语音克隆、角色扮演等功能。

  • 提供强大的 OCR 和视频理解能力

  • 支持连续的视频和音频流输入,实现实时直播与多模态上下文理解。

  • 多语言支持: 支持超过 30 种语言的输入和输出,涵盖文本和语音。

特点与亮点

  1. 多模态能力

视觉处理: 模型能够理解单张图片、多张图片以及视频内容,支持高达 180 万像素的图像(如 1344x1344 分辨率),并在 OCR(光学字符识别)等视觉任务中表现出色。

语音功能: 实现了中英文双语的实时语音对话,用户可以根据需求调整语音的情绪、语速和风格。模型还支持语音克隆功能,能模仿特定声音并生成语音。

多模态直播: 允许连续的视频和音频流输入,无需用户主动查询即可处理多模态任务,实现真正的实时互动。

  1. 高效性能

轻量级设计: 模型包含 80 亿参数,能够以较低的硬件需求实现高效推理。

Token 优化: 在处理高分辨率图像时,生成的 token 数量比传统模型少 75%,大幅减少计算资源的使用,例如推理速度、内存需求和能耗。

  1. 创新功能

情绪和角色扮演: 在语音合成过程中支持多种语调选择,甚至可以模拟不同角色,适合娱乐和专业场景。

端到端语音克隆: 用户可以直接生成与目标声音高度相似的语音输出。

多语言支持: 支持超过 30 种语言的输入和输出,涵盖文本和语音。

  1. 开放性与易用性

提供多种模型版本(如精简版和量化版),支持在低算力设备上运行,例如 iPad、Mac 和安卓手机。

支持多种部署方式,包括 llama.cpp 和 vLLM 框架,用户可选择本地或在线方式进行推理。

提供在线 Demo 和本地 Web 界面,方便用户快速体验模型能力。

  1. 性能优势

在多个基准测试(如 OCRBench 和 StreamingBench)中表现优异,超越 GPT-4o 和 Claude 3.5 Sonnet 等知名模型。

对图片和视频的理解能力尤为出色,适合多模态应用领域。

image


技术细节

image

  1. 模型架构

端到端设计: 模型采用多模态编码器和解码器架构,能够高效整合视觉、语音和文本信息。

流媒体机制: 引入时间分片多路复用(TDM)机制,可同时处理多种输入类型并实时生成输出。

  1. 技术创新

语音系统提示词: 除传统文本提示词外,还支持音频提示词,用于定制助手的语音风格和语调。

高效推理: 使用量化模型(如 int4 格式)进一步降低计算需求,在移动设备上也可实现流畅推理。

  1. 微调能力

提供多种微调框架(如 LLaMA-Factory),用户可通过内置的 Web 界面灵活配置任务和领域微调。

支持轻量化微调技术(如 LoRA 和 QLoRA),无需额外编码即可快速完成定制化训练。


应用场景

实时多模态互动

适用于视频直播、教育平台、虚拟助手等需要实时处理多模态数据的场景。

高级语音应用

用于语音合成、翻译、语音助手等领域,可实现个性化语音定制。

视觉和文本分析

在文档识别(OCR)、图像分析和多语言内容理解中表现突出。

移动端部署

可高效运行于 iPad 和安卓手机,为便携式设备提供强大的 AI 支持。

GitHub:https://github.com/OpenBMB/MiniCPM-o

在线体验:https://minicpm-omni-webdemo-us.modelbest.cn/

模型下载:https://huggingface.co/openbmb/MiniCPM-o-2_6


来源:面壁智能推出 MiniCPM-o 2.6 匹敌GPT-4o 级别的全能多模态端侧模型