📰 正文

DeepSeek发布其文档理解 OCR 模型:DeepSeek-OCR-2,其核心目标并非单纯的字符识别,而是实现面向文档结构与语义的 OCR 生成任务。

参数规模:3B

模型支持 动态分辨率输入:

多块 768×768 patch

单块 1024×1024 全局视图

模型被定义为:

Image-Text-to-Text

多语言

面向复杂文档场景(PDF、扫描件、结构化文档)

普通 OCR: 👉「图里有哪些字?」

DeepSeek-OCR-2: 👉「这是一份什么文档?标题在哪?段落怎么分?表格怎么还原?」

与传统 OCR 系统相比,该模型将 OCR 任务提升为:

“基于视觉理解的文本生成问题”

也就是,不是只认字,而是像人一样“读文档、理解版面、再输出文字”。

image

它是一个「视觉 + 语言」大模型

官方标签是:

Image-Text-to-Text

意思是:

图片(文档、扫描件、截图)
        ↓
   视觉理解(版面、结构)
        ↓
   语言模型(组织文字)
        ↓
     输出文本

其输出目标是:

结构化文本

具备逻辑顺序的段落

可直接用于下游语言模型任务的表示形式(如 Markdown)

该模型本质上是一个文档级生成模型,而非字符识别引擎。

它的核心理念 👇

想解决的是什么问题?

表面问题:OCR 效果不够好

这不是论文真正关心的点。 字符识别本身并不是瓶颈。

实际问题:文档的“阅读顺序”和“结构逻辑”

在复杂文档中(论文、报告、表格密集页面):

文本内容本身并不难识别

难的是:

哪些是标题

哪些是正文

表格应该如何按逻辑顺序展开

多栏排版该如何串成一条线性文本

换句话说,问题不是“认字”,而是“读文档”。

官方提出一种 Visual Causal Flow 的算法,其整体设计理念,主要体现在以下几个方面: 1.

视觉层级建模

从整体布局到局部区域逐级建模

结构优先于文本

先判断区域角色(标题、正文、表格),再生成文本

生成式 OCR

文本不是简单读取,而是基于视觉理解进行生成

也就是模型在“看到整张文档”之后

再决定:

哪些区域应该先被“识别”

哪些应该后能被识别

阅读顺序应当如何组织

这一范式更接近人类阅读文档时的处理流程。

image


传统 OCR 的思路(很“机械”)

像素 → 边缘 → 字符 → 拼字符串

DeepSeek-OCR-2 的思路(更像人)

看整体 →
理解这是“文档” →
理解哪里是标题 →
理解段落逻辑 →
再输出文字

👉 先理解“因果和结构”,再生成文字,这就是他们称为的 Visual Causal Flow(视觉因果流)技术。

模型能力边界与任务范围

支持的核心任务

文档 OCR(含扫描件、截图)

文档结构识别(标题、段落、列表)

表格与版面感知文本生成

图像到 Markdown 的结构化输出

多语言文档识别


非目标任务

手写体识别(尤其是自由书写)

艺术字体或高度装饰性文本

实时低延迟移动端 OCR

纯字符级精确定位任务


Prompt 机制与控制方式

DeepSeek-OCR-2 采用 指令驱动式 OCR,即 OCR 行为可通过 prompt 控制。

结构化输出(推荐)

<image>
<|grounding|>Convert the document to markdown.

该指令触发模型的文档结构理解能力,输出具备层级关系的文本。

非结构化输出

<image>
Free OCR.

该模式下模型主要执行文本识别,不强调版面结构。

实验结果与定量分析

image

总体提升:+3.73%

阅读顺序错误显著下降

与 Gemini-3 Pro 的对比(page 10)

在相同 token 预算下:

DeepSeek-OCR 2 的 整体 Edit Distance = 0.100

Gemini-3 Pro = 0.115

说明:

高压缩率下仍保持结构理解优势

生产环境指标(page 10)

在线图片 OCR 重复率:

6.25% → 4.17%

PDF 生产流水线:

3.69% → 2.88%

表明该架构并非仅“学术有效”,而是具备工程可用性。

方法论意义(Why it matters)

DeepSeek-OCR 2 的核心贡献不在于“更强 OCR”,而在于:

将视觉编码从“空间展开”推进到“因果重排”

明确提出并验证了 Visual Causal Flow 这一可实现架构

为文档理解型 OCR 提供了新的工程与研究范式

  1. 重新定义了“视觉编码”的核心问题

以往视觉模型默认假设:

视觉 token 的顺序是给定的

DeepSeek-OCR 2 提出并验证:

视觉 token 的顺序应当是模型推理的结果

这是从“被动编码”到“主动建序”的转变。


  1. 将文档理解问题上升为“因果建模问题”

该工作表明:

文档阅读 ≠ 空间扫描

文档阅读 = 语义驱动的因果顺序决策

这使“阅读顺序”成为一个可学习、可优化的模型对象。


  1. 提供了一条 2D 理解的可行路径

论文给出一个明确方法论假设:

图像是 2D,但语言模型是 1D

2D 视觉理解 ≈ 两个级联的 1D 因果推理过程

Encoder:视觉阅读顺序建模

Decoder:基于顺序的语言生成

这是对“2D → 1D 映射问题”的一种系统性回答。

这为后续 VLM 架构提供了一个可复用的设计思路。

模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2


来源:DeepSeek发布全新文档理解 OCR 模型:DeepSeek-OCR-2 模拟人类阅读文档