olmOCR：开源OCR工具 可以将 PDF 和其他文档高质量转换为纯文本 同时保留自然的阅读顺序

📰 正文

olmOCR 是由 Allen Institute for AI (AI2) 开发的一款开源 OCR（光学字符识别）工具，专门用于高精度从 PDF 文本提取，能保持文本的阅读顺序，并支持表格、数学公式、手写内容的解析。

主要优势包括：

高性能：在 25 万页多样化 PDF 训练数据上进行微调，涵盖电子文档以及扫描书籍，能精准提取文本。

低成本：相比使用 GPT-4o API 进行 PDF 解析，处理 100 万页 PDF 仅需约 190 美元，成本仅为 1/32。

Markdown 输出：生成易解析的 Markdown 格式文本，保留表格、数学公式、手写文本，并确保正确阅读顺序。

完整开源：基于 Qwen2-VL-7B-Instruct 训练，开源提供模型权重、训练数据、推理代码，方便社区使用和优化。

主要技术亮点

通过结合 PDF 的文本和元数据，改进文本提取质量。

方法：

提取页面图像和文本块并合并。

使用 GPT-4o 处理 25 万页数据，生成高质量标注数据。

数据集包括 60% 学术论文，12% 宣传册，11% 法律文档，6% 图表，5% 幻灯片，4% 其他类型。

使用 SGLang 和 vLLM 进行推理，支持单 GPU 到多 GPU 扩展。

批量处理优化，单页成本远低于 GPT-4o API。

对比实验：

与 Marker、GOT-OCR 2.0、MinerU 等工具对比，在 2017 份 PDF 的 452 次对比实验中：

比 Marker 更好 61.3%

比 GOT-OCR 2.0 更好 58.6%

比 MinerU 更好 71.4%

通过 ELO 评分，olmOCR 显著领先其他工具，评分超过 1800。

一些案例：

手写稿

历史文献

数学教科书

GitHub：https://github.com/allenai/olmocr

技术报告：https://olmocr.allenai.org/papers/olmocr.pdf

在线体验：https://olmocr.allenai.org/