📰 正文
Reducto 团队基于 Allen Institute for AI 发布的 olmOCR 模型,构建了一个性能更优、资源占用更低的替代模型:RolmOCR。
它比之前的模型:
更快
占用更少内存
识别效果更好
该模型不依赖复杂的文档结构信息,能更灵活处理扫描文档和非标准格式的内容。它适用于 OCR(文字识别)、文档处理、信息抽取等场景。
你可以把它当成一个 开箱即用的 AI OCR 工具,还可以修改代码做你自己的定制版本!
它是怎么来的?
最初由 Allen Institute 发布了 olmOCR —— 一个很厉害的 OCR 模型,能够理解复杂文档。但它有一些“小毛病”:
有时依赖 PDF 的元数据信息(比如字体、位置等),这些信息不总是准确。
有些模型版本比较“重”,推理(使用)速度慢,占用显存大。
于是,Reducto 团队做了一个新版本:RolmOCR,名字就是 “Refined olmOCR” 的意思。
🔧 技术改进点
RolmOCR 做了三大技术优化:
- 更新了基础大模型
基于更先进的视觉语言模型 Qwen2.5-VL-7B。
这个模型识别图像+文字的能力更强,尤其是对不规则文本、图像中嵌套文字等。
- 不使用 PDF 元数据
olmOCR 需要依赖 PDF 的结构信息,比如段落、标题、表格等元数据。
RolmOCR 完全不使用这些信息,这样好处是:
Prompt 更短,模型处理更快。
显存(VRAM)占用更少。
在没有元数据的文档上,表现反而更稳定。
缺点是:对于非常结构化的 PDF(比如论文里的表格标题),可能会漏掉一些细节。
- 训练数据中加入“旋转图像”
他们把 15% 的训练图像旋转了角度,比如歪着的扫描件、拍歪的文档。
这样能让模型更好应对“角度奇怪”的真实文件,提高鲁棒性。
实际效果对比
他们用了三个案例,测试 RolmOCR 和原版 olmOCR 的差别:
✅ 案例 1:手写笔记 + 注释
RolmOCR 识别更准确,把“错读”的内容修正了,比如把 “OCLM” 正确识别为 “DCLM”。
顺序更合理,适合用在自动理解笔记的系统中。
✅ 案例 2:中英文混排的信封照片(低对比度)
RolmOCR 读取得更完整,尽管有小字体漏掉。
olmOCR 大多数时候没能成功识别,甚至不输出内容。
❌ 案例 3:LaTeX 学术论文 + 表格
RolmOCR 漏掉了表格中的副标题。
olmOCR 成功提取了,因为用了 PDF 的结构元数据。
说明:当结构信息可用时,使用元数据能更准确。
总结
推理速度更快、显存占用更小,适合部署在资源有限的环境中。
尽管性能出色,但在包含结构化元数据的 PDF 文档中略有劣势。
模型与训练数据开源,地址与使用说明详见其 README 文档。
Reducto 自研系统则提供更高级功能,如多语言支持、布局感知解析、边界框等。
GitHub:https://huggingface.co/reducto/RolmOCR