📰 正文
面壁智能推出 MiniCPM-o 2.6,一个 8B 大小、匹敌GPT-4o 级别的全能模型,可在移动设备上运行
领先的视觉能力:超越了GPT-4o-202405、Gemini 1.5 Pro和Claude 3.5 Sonnet等
支持中英双语实时语音对话,并提供情感/速度/风格控制、端到端语音克隆、角色扮演等功能。
提供强大的 OCR 和视频理解能力
支持连续的视频和音频流输入,实现实时直播与多模态上下文理解。
多语言支持: 支持超过 30 种语言的输入和输出,涵盖文本和语音。
特点与亮点
- 多模态能力
视觉处理: 模型能够理解单张图片、多张图片以及视频内容,支持高达 180 万像素的图像(如 1344x1344 分辨率),并在 OCR(光学字符识别)等视觉任务中表现出色。
语音功能: 实现了中英文双语的实时语音对话,用户可以根据需求调整语音的情绪、语速和风格。模型还支持语音克隆功能,能模仿特定声音并生成语音。
多模态直播: 允许连续的视频和音频流输入,无需用户主动查询即可处理多模态任务,实现真正的实时互动。
- 高效性能
轻量级设计: 模型包含 80 亿参数,能够以较低的硬件需求实现高效推理。
Token 优化: 在处理高分辨率图像时,生成的 token 数量比传统模型少 75%,大幅减少计算资源的使用,例如推理速度、内存需求和能耗。
- 创新功能
情绪和角色扮演: 在语音合成过程中支持多种语调选择,甚至可以模拟不同角色,适合娱乐和专业场景。
端到端语音克隆: 用户可以直接生成与目标声音高度相似的语音输出。
多语言支持: 支持超过 30 种语言的输入和输出,涵盖文本和语音。
- 开放性与易用性
提供多种模型版本(如精简版和量化版),支持在低算力设备上运行,例如 iPad、Mac 和安卓手机。
支持多种部署方式,包括 llama.cpp 和 vLLM 框架,用户可选择本地或在线方式进行推理。
提供在线 Demo 和本地 Web 界面,方便用户快速体验模型能力。
- 性能优势
在多个基准测试(如 OCRBench 和 StreamingBench)中表现优异,超越 GPT-4o 和 Claude 3.5 Sonnet 等知名模型。
对图片和视频的理解能力尤为出色,适合多模态应用领域。
技术细节
- 模型架构
端到端设计: 模型采用多模态编码器和解码器架构,能够高效整合视觉、语音和文本信息。
流媒体机制: 引入时间分片多路复用(TDM)机制,可同时处理多种输入类型并实时生成输出。
- 技术创新
语音系统提示词: 除传统文本提示词外,还支持音频提示词,用于定制助手的语音风格和语调。
高效推理: 使用量化模型(如 int4 格式)进一步降低计算需求,在移动设备上也可实现流畅推理。
- 微调能力
提供多种微调框架(如 LLaMA-Factory),用户可通过内置的 Web 界面灵活配置任务和领域微调。
支持轻量化微调技术(如 LoRA 和 QLoRA),无需额外编码即可快速完成定制化训练。
应用场景
实时多模态互动
适用于视频直播、教育平台、虚拟助手等需要实时处理多模态数据的场景。
高级语音应用
用于语音合成、翻译、语音助手等领域,可实现个性化语音定制。
视觉和文本分析
在文档识别(OCR)、图像分析和多语言内容理解中表现突出。
移动端部署
可高效运行于 iPad 和安卓手机,为便携式设备提供强大的 AI 支持。
GitHub:https://github.com/OpenBMB/MiniCPM-o
在线体验:https://minicpm-omni-webdemo-us.modelbest.cn/
模型下载:https://huggingface.co/openbmb/MiniCPM-o-2_6