DeepSeek发布全新文档理解 OCR 模型：DeepSeek-OCR-2 模拟人类阅读文档

📰 正文

DeepSeek发布其文档理解 OCR 模型：DeepSeek-OCR-2，其核心目标并非单纯的字符识别，而是实现面向文档结构与语义的 OCR 生成任务。

参数规模：3B

模型支持动态分辨率输入：

多块 768×768 patch

单块 1024×1024 全局视图

模型被定义为：

Image-Text-to-Text

多语言

面向复杂文档场景（PDF、扫描件、结构化文档）

普通 OCR： 👉「图里有哪些字？」

DeepSeek-OCR-2： 👉「这是一份什么文档？标题在哪？段落怎么分？表格怎么还原？」

与传统 OCR 系统相比，该模型将 OCR 任务提升为：

“基于视觉理解的文本生成问题”

也就是，不是只认字，而是像人一样“读文档、理解版面、再输出文字”。

它是一个「视觉 + 语言」大模型

官方标签是：

Image-Text-to-Text

意思是：

图片（文档、扫描件、截图）
        ↓
   视觉理解（版面、结构）
        ↓
   语言模型（组织文字）
        ↓
     输出文本

其输出目标是：

结构化文本

具备逻辑顺序的段落

可直接用于下游语言模型任务的表示形式（如 Markdown）

该模型本质上是一个文档级生成模型，而非字符识别引擎。

它的核心理念 👇

想解决的是什么问题？

表面问题：OCR 效果不够好

这不是论文真正关心的点。字符识别本身并不是瓶颈。

实际问题：文档的“阅读顺序”和“结构逻辑”

在复杂文档中（论文、报告、表格密集页面）：

文本内容本身并不难识别

难的是：

哪些是标题

哪些是正文

表格应该如何按逻辑顺序展开

多栏排版该如何串成一条线性文本

换句话说，问题不是“认字”，而是“读文档”。

官方提出一种 Visual Causal Flow 的算法，其整体设计理念，主要体现在以下几个方面： 1.

视觉层级建模

从整体布局到局部区域逐级建模

结构优先于文本

先判断区域角色（标题、正文、表格），再生成文本

生成式 OCR

文本不是简单读取，而是基于视觉理解进行生成

也就是模型在“看到整张文档”之后

再决定：

哪些区域应该先被“识别”

哪些应该后能被识别

阅读顺序应当如何组织

这一范式更接近人类阅读文档时的处理流程。

传统 OCR 的思路（很“机械”）

像素 → 边缘 → 字符 → 拼字符串

DeepSeek-OCR-2 的思路（更像人）

看整体 →
理解这是“文档” →
理解哪里是标题 →
理解段落逻辑 →
再输出文字

👉 先理解“因果和结构”，再生成文字，这就是他们称为的 Visual Causal Flow（视觉因果流）技术。

模型能力边界与任务范围

支持的核心任务

文档 OCR（含扫描件、截图）

文档结构识别（标题、段落、列表）

表格与版面感知文本生成

图像到 Markdown 的结构化输出

多语言文档识别

非目标任务

手写体识别（尤其是自由书写）

艺术字体或高度装饰性文本

实时低延迟移动端 OCR

纯字符级精确定位任务

Prompt 机制与控制方式

DeepSeek-OCR-2 采用指令驱动式 OCR，即 OCR 行为可通过 prompt 控制。

结构化输出（推荐）

<image>
<|grounding|>Convert the document to markdown.

该指令触发模型的文档结构理解能力，输出具备层级关系的文本。

非结构化输出

<image>
Free OCR.

该模式下模型主要执行文本识别，不强调版面结构。

实验结果与定量分析

总体提升：+3.73%

阅读顺序错误显著下降

与 Gemini-3 Pro 的对比（page 10）

在相同 token 预算下：

DeepSeek-OCR 2 的整体 Edit Distance = 0.100

Gemini-3 Pro = 0.115

说明：

高压缩率下仍保持结构理解优势

生产环境指标（page 10）

在线图片 OCR 重复率：

6.25% → 4.17%

PDF 生产流水线：

3.69% → 2.88%

表明该架构并非仅“学术有效”，而是具备工程可用性。

方法论意义（Why it matters）

DeepSeek-OCR 2 的核心贡献不在于“更强 OCR”，而在于：

将视觉编码从“空间展开”推进到“因果重排”

明确提出并验证了 Visual Causal Flow 这一可实现架构

为文档理解型 OCR 提供了新的工程与研究范式

重新定义了“视觉编码”的核心问题

以往视觉模型默认假设：

视觉 token 的顺序是给定的

DeepSeek-OCR 2 提出并验证：

视觉 token 的顺序应当是模型推理的结果

这是从“被动编码”到“主动建序”的转变。

将文档理解问题上升为“因果建模问题”

该工作表明：

文档阅读 ≠ 空间扫描

文档阅读 = 语义驱动的因果顺序决策

这使“阅读顺序”成为一个可学习、可优化的模型对象。

提供了一条 2D 理解的可行路径

论文给出一个明确方法论假设：

图像是 2D，但语言模型是 1D

2D 视觉理解 ≈ 两个级联的 1D 因果推理过程

Encoder：视觉阅读顺序建模

Decoder：基于顺序的语言生成

这是对“2D → 1D 映射问题”的一种系统性回答。

这为后续 VLM 架构提供了一个可复用的设计思路。

模型下载：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

GitHub：https://github.com/deepseek-ai/DeepSeek-OCR-2

来源：DeepSeek发布全新文档理解 OCR 模型：DeepSeek-OCR-2 模拟人类阅读文档

📰 正文#

📰 正文