📰 正文

AI2(Allen Institute for AI) 发布的新一代光学字符识别模型 —— olmOCR 2。 它是一个将 PDF 文件、扫描文档和历史资料 转换为可编辑文本的 AI 模型,重点是处理传统 OCR 系统难以应对的 复杂文档结构和手写体识别问题。

olmOCR 2 在识别文档时,内置自动验证机制,能判断并改进自己的输出,使结果更准确、更可靠。

olmOCR 2 达到当前已知 最优性能(SOTA),在真实世界英文印刷文档 OCR 任务中显著超越现有模型。

核心模型为 olmOCR-2-7B-1025,属于中大型多模态 Transformer 架构。

在内部标准 olmOCR-Bench 上,整体性能由上代的 78.5 提升到 82.4。

性能提升覆盖所有文档类型(公式、表格、文本块、手写稿等)。

FP8 量化版本,在单卡 GPU(H100)上速度达到 3400 tokens/s, 成本极低(1万页文档仅需 < 2 美元),为大规模批量处理场景(如档案数字化、法律文件扫描)提供了可行方案。

背景问题

OCR(Optical Character Recognition,光学字符识别)是把扫描图像或 PDF 转化为可编辑文字的技术。 尽管已有许多成熟工具(如 Tesseract、Adobe OCR、PaddleOCR),但在以下场景中仍表现不理想:

多栏排版(科研论文、报纸)常导致阅读顺序混乱;

复杂表格中合并单元格、嵌套表头经常被破坏;

数学公式、特殊符号易出错;

历史档案和低质量扫描件易模糊失真。

AI2 的 olmOCR 项目 即针对这些高难度文档提出了 端到端的视觉-语言解决方案。 olmOCR-2 是该系列的第二代版本,显著提升了复杂文档的结构化识别能力。

总体设计与模型架构

模型基础:视觉语言一体化

olmOCR 2 基于 Qwen2.5-VL-7B 模型构建,这是一种具备视觉与文本双模态能力的 Transformer 模型。 其核心思路是:让模型直接“理解”文档的视觉结构,而不是仅仅识别字符。

工作流程如下: 1.

视觉编码器(Vision Encoder) 处理整个 PDF 页面图像;

文本解码器(Text Decoder) 输出结构化文本,包括:

Markdown(文档层级与标题结构);

HTML(表格与布局);

LaTeX(数学公式与符号)。

➡️ 这意味着模型在输出时就已经生成结构化文本,不再依赖后续的规则拼接或正则修复,避免传统多阶段 OCR 系统中常见的错误传递问题。


训练数据集

📚 olmOCR-mix-1025

总计 270,000 页 PDF;

来源多样:学术论文、法律文书、政府档案、手册、小册子;

新增 20,000 页 手写体与打字稿,增强模型对历史文本与退化扫描件的鲁棒性。

🧠 合成数据集 olmOCR-synthmix-1025

AI2 还开发了一个 可验证的合成训练集:

2,186 页人工生成 PDF;

含 30,381 个自动化测试用例;

成本仅 $0.12 每页;

每个样本都具备可程序验证的正确结构。

该数据集成为训练中“可验证监督”的基础。


创新机制:以“单元测试”为核心的可验证奖励学习

传统 OCR 是“看完就算”

以往的 OCR 系统(比如 Tesseract、Adobe OCR 等)工作方式是这样的: 1.

先识别图像上的文字;

然后直接输出识别结果(比如纯文本)。

问题是:

它不知道自己有没有识别错;

无法判断表格有没有歪、数学公式有没有缺符号;

更不可能知道结构(比如多栏排版)是否被打乱。

👉 简单说:传统 OCR 是“看完就写”,但不会自我检查。


olmOCR 2 的创新:让模型“自己验答案”

olmOCR 2 的核心创新是: 在训练过程中,它不仅学习“怎么看文档”,还学习“怎么判断自己是不是看对了”。

AI2 团队给模型设计了一套类似“单元测试(unit tests)”的机制。 模型输出结果后,这些程序会自动检查以下内容:

image

这些测试是 程序自动执行的,不依赖人工判断。 如果模型输出通过了更多“测试”,它在训练中就得到更高奖励; 如果没通过,则“被惩罚”,促使它改进输出。


强化学习机制:Group Relative Policy Optimization (GRPO)

olmOCR 2 采用 GRPO 算法,一种强化学习变体。 训练过程如下: 1.

模型针对每个文档生成 28 个候选输出;

每个输出通过一组单元测试;

通过测试的候选获得更高奖励;

模型参数根据奖励梯度更新。

这意味着模型“学会”优化输出结构以通过测试,而不是盲目追求语言相似度。 从而显著减少了常见 OCR 问题,如表格错行、公式断裂、标题层级混乱等。


总体性能结果

关键子任务表现

image

典型案例:

📜 Abraham Lincoln 于 1864 年 1 月 10 日写给 Hitchcock 将军的信件

olmOCR 1:多次误读日期“Jan. 10, 1864”为“Jan. 16, 1861”;

olmOCR 2:正确识别日期与人名,保留段落层级结构。

这说明 olmOCR 2 在处理老旧字体、斑驳纸张和手写体混排文本时的鲁棒性有了实质飞跃。

image

与主流 OCR 系统对比

olmOCR 2 在结构化文档理解任务上已超越通用视觉语言模型(包括 GPT-4V)与传统 OCR 引擎。

image

image

部署效率

FP8 量化版本:3,400 tokens/秒(单 H100 GPU);

处理 10,000 页成本 < $2;

支持 BF16 与全精度版本;

可在 Hugging Face、DeepInfra、Parasail 上直接调用;

提供完整训练代码与数据,允许用户针对特定文档进行微调。

工具链与应用生态

AI2 同时发布了 olmOCR Toolkit,一个配套工具集,支持:

文档批处理与推理;

自动提取 PDF 元数据;

根据自有样本文档进行微调;

大规模部署与结果评估。

典型应用方向 1.

科研与知识管理 自动解析 PDF 论文,生成可索引的结构化文本(Markdown/HTML/LaTeX)。

档案数字化与文化遗产保护 支持破损或历史扫描件的高保真识别。

金融与法律文档自动化 精确解析复杂表格、条款与公式内容。

无障碍与可访问性 为视障者或语义检索提供结构化内容输入。

Resources:  资源:

Model: BF16 & FP8  

Demo  演示

Dataset  数据集

Paper  论文


来源:会自己检查对不对的OCR AI2 推出第二代OCR 模型 :olmOCR 2