RolmOCR：基于 olmOCR 构建的更快、更轻的开源OCR 模型 开箱即用

📰 正文

Reducto 团队基于 Allen Institute for AI 发布的 olmOCR 模型，构建了一个性能更优、资源占用更低的替代模型：RolmOCR。

它比之前的模型：

更快

占用更少内存

识别效果更好

该模型不依赖复杂的文档结构信息，能更灵活处理扫描文档和非标准格式的内容。它适用于 OCR（文字识别）、文档处理、信息抽取等场景。

你可以把它当成一个开箱即用的 AI OCR 工具，还可以修改代码做你自己的定制版本！

它是怎么来的？

最初由 Allen Institute 发布了 olmOCR —— 一个很厉害的 OCR 模型，能够理解复杂文档。但它有一些“小毛病”：

有时依赖 PDF 的元数据信息（比如字体、位置等），这些信息不总是准确。

有些模型版本比较“重”，推理（使用）速度慢，占用显存大。

于是，Reducto 团队做了一个新版本：RolmOCR，名字就是 “Refined olmOCR” 的意思。

🔧 技术改进点

RolmOCR 做了三大技术优化：

更新了基础大模型

基于更先进的视觉语言模型 Qwen2.5-VL-7B。

这个模型识别图像+文字的能力更强，尤其是对不规则文本、图像中嵌套文字等。

不使用 PDF 元数据

olmOCR 需要依赖 PDF 的结构信息，比如段落、标题、表格等元数据。

RolmOCR 完全不使用这些信息，这样好处是：

Prompt 更短，模型处理更快。

显存（VRAM）占用更少。

在没有元数据的文档上，表现反而更稳定。

缺点是：对于非常结构化的 PDF（比如论文里的表格标题），可能会漏掉一些细节。

训练数据中加入“旋转图像”

他们把 15% 的训练图像旋转了角度，比如歪着的扫描件、拍歪的文档。

这样能让模型更好应对“角度奇怪”的真实文件，提高鲁棒性。

实际效果对比

他们用了三个案例，测试 RolmOCR 和原版 olmOCR 的差别：

✅ 案例 1：手写笔记 + 注释

RolmOCR 识别更准确，把“错读”的内容修正了，比如把 “OCLM” 正确识别为 “DCLM”。

顺序更合理，适合用在自动理解笔记的系统中。

✅ 案例 2：中英文混排的信封照片（低对比度）

RolmOCR 读取得更完整，尽管有小字体漏掉。

olmOCR 大多数时候没能成功识别，甚至不输出内容。

❌ 案例 3：LaTeX 学术论文 + 表格

RolmOCR 漏掉了表格中的副标题。

olmOCR 成功提取了，因为用了 PDF 的结构元数据。

说明：当结构信息可用时，使用元数据能更准确。

总结

推理速度更快、显存占用更小，适合部署在资源有限的环境中。

尽管性能出色，但在包含结构化元数据的 PDF 文档中略有劣势。

模型与训练数据开源，地址与使用说明详见其 README 文档。

Reducto 自研系统则提供更高级功能，如多语言支持、布局感知解析、边界框等。

GitHub：https://huggingface.co/reducto/RolmOCR

来源：RolmOCR：基于 olmOCR 构建的更快、更轻的开源OCR 模型开箱即用

📰 正文#

📰 正文