📰 正文
DeepSeek发布其文档理解 OCR 模型:DeepSeek-OCR-2,其核心目标并非单纯的字符识别,而是实现面向文档结构与语义的 OCR 生成任务。
参数规模:3B
模型支持 动态分辨率输入:
多块 768×768 patch
单块 1024×1024 全局视图
模型被定义为:
Image-Text-to-Text
多语言
面向复杂文档场景(PDF、扫描件、结构化文档)
普通 OCR: 👉「图里有哪些字?」
DeepSeek-OCR-2: 👉「这是一份什么文档?标题在哪?段落怎么分?表格怎么还原?」
与传统 OCR 系统相比,该模型将 OCR 任务提升为:
“基于视觉理解的文本生成问题”
也就是,不是只认字,而是像人一样“读文档、理解版面、再输出文字”。
它是一个「视觉 + 语言」大模型
官方标签是:
Image-Text-to-Text
意思是:
图片(文档、扫描件、截图)
↓
视觉理解(版面、结构)
↓
语言模型(组织文字)
↓
输出文本
其输出目标是:
结构化文本
具备逻辑顺序的段落
可直接用于下游语言模型任务的表示形式(如 Markdown)
该模型本质上是一个文档级生成模型,而非字符识别引擎。
它的核心理念 👇
想解决的是什么问题?
表面问题:OCR 效果不够好
这不是论文真正关心的点。 字符识别本身并不是瓶颈。
实际问题:文档的“阅读顺序”和“结构逻辑”
在复杂文档中(论文、报告、表格密集页面):
文本内容本身并不难识别
难的是:
哪些是标题
哪些是正文
表格应该如何按逻辑顺序展开
多栏排版该如何串成一条线性文本
换句话说,问题不是“认字”,而是“读文档”。
官方提出一种 Visual Causal Flow 的算法,其整体设计理念,主要体现在以下几个方面: 1.
视觉层级建模
从整体布局到局部区域逐级建模
结构优先于文本
先判断区域角色(标题、正文、表格),再生成文本
生成式 OCR
文本不是简单读取,而是基于视觉理解进行生成
也就是模型在“看到整张文档”之后
再决定:
哪些区域应该先被“识别”
哪些应该后能被识别
阅读顺序应当如何组织
这一范式更接近人类阅读文档时的处理流程。
传统 OCR 的思路(很“机械”)
像素 → 边缘 → 字符 → 拼字符串
DeepSeek-OCR-2 的思路(更像人)
看整体 →
理解这是“文档” →
理解哪里是标题 →
理解段落逻辑 →
再输出文字
👉 先理解“因果和结构”,再生成文字,这就是他们称为的 Visual Causal Flow(视觉因果流)技术。
模型能力边界与任务范围
支持的核心任务
文档 OCR(含扫描件、截图)
文档结构识别(标题、段落、列表)
表格与版面感知文本生成
图像到 Markdown 的结构化输出
多语言文档识别
非目标任务
手写体识别(尤其是自由书写)
艺术字体或高度装饰性文本
实时低延迟移动端 OCR
纯字符级精确定位任务
Prompt 机制与控制方式
DeepSeek-OCR-2 采用 指令驱动式 OCR,即 OCR 行为可通过 prompt 控制。
结构化输出(推荐)
<image>
<|grounding|>Convert the document to markdown.
该指令触发模型的文档结构理解能力,输出具备层级关系的文本。
非结构化输出
<image>
Free OCR.
该模式下模型主要执行文本识别,不强调版面结构。
实验结果与定量分析
总体提升:+3.73%
阅读顺序错误显著下降
与 Gemini-3 Pro 的对比(page 10)
在相同 token 预算下:
DeepSeek-OCR 2 的 整体 Edit Distance = 0.100
Gemini-3 Pro = 0.115
说明:
高压缩率下仍保持结构理解优势
生产环境指标(page 10)
在线图片 OCR 重复率:
6.25% → 4.17%
PDF 生产流水线:
3.69% → 2.88%
表明该架构并非仅“学术有效”,而是具备工程可用性。
方法论意义(Why it matters)
DeepSeek-OCR 2 的核心贡献不在于“更强 OCR”,而在于:
将视觉编码从“空间展开”推进到“因果重排”
明确提出并验证了 Visual Causal Flow 这一可实现架构
为文档理解型 OCR 提供了新的工程与研究范式
- 重新定义了“视觉编码”的核心问题
以往视觉模型默认假设:
视觉 token 的顺序是给定的
DeepSeek-OCR 2 提出并验证:
视觉 token 的顺序应当是模型推理的结果
这是从“被动编码”到“主动建序”的转变。
- 将文档理解问题上升为“因果建模问题”
该工作表明:
文档阅读 ≠ 空间扫描
文档阅读 = 语义驱动的因果顺序决策
这使“阅读顺序”成为一个可学习、可优化的模型对象。
- 提供了一条 2D 理解的可行路径
论文给出一个明确方法论假设:
图像是 2D,但语言模型是 1D
2D 视觉理解 ≈ 两个级联的 1D 因果推理过程
Encoder:视觉阅读顺序建模
Decoder:基于顺序的语言生成
这是对“2D → 1D 映射问题”的一种系统性回答。
这为后续 VLM 架构提供了一个可复用的设计思路。
模型下载:https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
论文:https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR-2