会自己检查对不对的OCR AI2 推出第二代OCR 模型 ：olmOCR 2

📰 正文

AI2（Allen Institute for AI）发布的新一代光学字符识别模型 —— olmOCR 2。它是一个将 PDF 文件、扫描文档和历史资料转换为可编辑文本的 AI 模型，重点是处理传统 OCR 系统难以应对的复杂文档结构和手写体识别问题。

olmOCR 2 在识别文档时，内置自动验证机制，能判断并改进自己的输出，使结果更准确、更可靠。

olmOCR 2 达到当前已知最优性能（SOTA），在真实世界英文印刷文档 OCR 任务中显著超越现有模型。

核心模型为 olmOCR-2-7B-1025，属于中大型多模态 Transformer 架构。

在内部标准 olmOCR-Bench 上，整体性能由上代的 78.5 提升到 82.4。

性能提升覆盖所有文档类型（公式、表格、文本块、手写稿等）。

FP8 量化版本，在单卡 GPU（H100）上速度达到 3400 tokens/s，成本极低（1万页文档仅需 < 2 美元），为大规模批量处理场景（如档案数字化、法律文件扫描）提供了可行方案。

背景问题

OCR（Optical Character Recognition，光学字符识别）是把扫描图像或 PDF 转化为可编辑文字的技术。尽管已有许多成熟工具（如 Tesseract、Adobe OCR、PaddleOCR），但在以下场景中仍表现不理想：

多栏排版（科研论文、报纸）常导致阅读顺序混乱；

复杂表格中合并单元格、嵌套表头经常被破坏；

数学公式、特殊符号易出错；

历史档案和低质量扫描件易模糊失真。

AI2 的 olmOCR 项目即针对这些高难度文档提出了端到端的视觉-语言解决方案。 olmOCR-2 是该系列的第二代版本，显著提升了复杂文档的结构化识别能力。

总体设计与模型架构

模型基础：视觉语言一体化

olmOCR 2 基于 Qwen2.5-VL-7B 模型构建，这是一种具备视觉与文本双模态能力的 Transformer 模型。其核心思路是：让模型直接“理解”文档的视觉结构，而不是仅仅识别字符。

工作流程如下： 1.

视觉编码器（Vision Encoder）处理整个 PDF 页面图像；

文本解码器（Text Decoder）输出结构化文本，包括：

Markdown（文档层级与标题结构）；

HTML（表格与布局）；

LaTeX（数学公式与符号）。

➡️ 这意味着模型在输出时就已经生成结构化文本，不再依赖后续的规则拼接或正则修复，避免传统多阶段 OCR 系统中常见的错误传递问题。

训练数据集

📚 olmOCR-mix-1025

总计 270,000 页 PDF；

来源多样：学术论文、法律文书、政府档案、手册、小册子；

新增 20,000 页手写体与打字稿，增强模型对历史文本与退化扫描件的鲁棒性。

🧠 合成数据集 olmOCR-synthmix-1025

AI2 还开发了一个可验证的合成训练集：

2,186 页人工生成 PDF；

含 30,381 个自动化测试用例；

成本仅 $0.12 每页；

每个样本都具备可程序验证的正确结构。

该数据集成为训练中“可验证监督”的基础。

创新机制：以“单元测试”为核心的可验证奖励学习

传统 OCR 是“看完就算”

以往的 OCR 系统（比如 Tesseract、Adobe OCR 等）工作方式是这样的： 1.

先识别图像上的文字；

然后直接输出识别结果（比如纯文本）。

问题是：

它不知道自己有没有识别错；

无法判断表格有没有歪、数学公式有没有缺符号；

更不可能知道结构（比如多栏排版）是否被打乱。

👉 简单说：传统 OCR 是“看完就写”，但不会自我检查。

olmOCR 2 的创新：让模型“自己验答案”

olmOCR 2 的核心创新是：在训练过程中，它不仅学习“怎么看文档”，还学习“怎么判断自己是不是看对了”。

AI2 团队给模型设计了一套类似“单元测试（unit tests）”的机制。模型输出结果后，这些程序会自动检查以下内容：

这些测试是程序自动执行的，不依赖人工判断。如果模型输出通过了更多“测试”，它在训练中就得到更高奖励；如果没通过，则“被惩罚”，促使它改进输出。

强化学习机制：Group Relative Policy Optimization (GRPO)

olmOCR 2 采用 GRPO 算法，一种强化学习变体。训练过程如下： 1.

模型针对每个文档生成 28 个候选输出；

每个输出通过一组单元测试；

通过测试的候选获得更高奖励；

模型参数根据奖励梯度更新。

这意味着模型“学会”优化输出结构以通过测试，而不是盲目追求语言相似度。从而显著减少了常见 OCR 问题，如表格错行、公式断裂、标题层级混乱等。

总体性能结果

关键子任务表现

典型案例：

📜 Abraham Lincoln 于 1864 年 1 月 10 日写给 Hitchcock 将军的信件

olmOCR 1：多次误读日期“Jan. 10, 1864”为“Jan. 16, 1861”；

olmOCR 2：正确识别日期与人名，保留段落层级结构。

这说明 olmOCR 2 在处理老旧字体、斑驳纸张和手写体混排文本时的鲁棒性有了实质飞跃。

与主流 OCR 系统对比

olmOCR 2 在结构化文档理解任务上已超越通用视觉语言模型（包括 GPT-4V）与传统 OCR 引擎。

部署效率

FP8 量化版本：3,400 tokens/秒（单 H100 GPU）；

处理 10,000 页成本 < $2；

支持 BF16 与全精度版本；

可在 Hugging Face、DeepInfra、Parasail 上直接调用；

提供完整训练代码与数据，允许用户针对特定文档进行微调。

工具链与应用生态

AI2 同时发布了 olmOCR Toolkit，一个配套工具集，支持：

文档批处理与推理；

自动提取 PDF 元数据；

根据自有样本文档进行微调；

大规模部署与结果评估。

典型应用方向 1.

科研与知识管理自动解析 PDF 论文，生成可索引的结构化文本（Markdown/HTML/LaTeX）。

档案数字化与文化遗产保护支持破损或历史扫描件的高保真识别。

金融与法律文档自动化精确解析复杂表格、条款与公式内容。

无障碍与可访问性为视障者或语义检索提供结构化内容输入。

Resources: 资源：

Model: BF16 & FP8

Demo 演示

Dataset 数据集

Paper 论文

来源：会自己检查对不对的OCR AI2 推出第二代OCR 模型：olmOCR 2

📰 正文#

📰 正文