📰 正文
DeepSeek 团队提出了一种新型 OCR(图像识字)文档理解系统:DeepSeek-OCR,它不仅能识别图片中的文字,还探索了一个大胆的想法: 👉 把长文本“压缩”成图片,让AI更高效地记忆和处理信息。
DeepSeek 团队称这种技术为:
“上下文光学压缩(Context Optical Compression)”, 意思是模型能把图片信息压缩成一种语言模型可以理解的语义表示。
🔍 为什么这么做?
大语言模型(比如 GPT)在处理长文章时,消耗的计算量会爆炸性增长。 但如果把文字“画成图片”,模型只需要很少的“视觉 token”就能理解同样内容。 这样做相当于给AI一个**“视觉记忆压缩”机制**。
🧩 它怎么工作?
DeepEncoder:把文档变成图片 → 提取出少量视觉特征(压缩信息)。
MoE 解码器:再把这些视觉特征解码回文字。
比如:
1000 个字的文章,用 100 个视觉 token(压缩 10×)表示,模型仍能还原出 97% 的原文。
⚙️ 性能有多强?
10× 压缩几乎不损精度(97%);
20× 压缩还能保留 60% 信息;
在标准 OCR 测试中,性能超过了 GPT-4o 同类模型;
支持上百种语言;
在 单张 A100-40G GPU 上每天可以生成 超过 200,000 页 训练数据
20 个节点每天可处理 3300万页的训练数据
DeepSeek-OCR 在使用最少视觉 token 的同时, 在端到端模型中仍能达到当前最先进(state-of-the-art)的性能水平。
🧬 模型还能做什么?
识别图表、公式、几何图;
输出结构化数据(如HTML表格);
理解图片内容、识别多语言;
甚至能帮AI模拟“记忆衰退”:旧信息被模糊化、压缩保存。
🧭 意义与展望
DeepSeek-OCR 不只是一个识字模型,它展示了一种**“视觉压缩记忆”**的概念:
未来的AI可以把旧记忆变成图片保存;
用更少的计算处理“几百页”的上下文;
这可能是解决“LLM记忆上限”的关键技术。
研究的核心思想:让视觉成为语言模型的“压缩记忆”
- 问题背景
大语言模型(LLM)在处理长文本(long context)时存在两个根本性问题:
计算复杂度高:注意力机制的计算量随序列长度平方增长;
记忆效率低:模型无法在不丢失信息的情况下长期保留历史上下文。
例如,一个 1 万字的长文档或多轮对话,在 GPT 等模型中处理会占用极大量的 token 与 GPU 内存。 因此,研究者开始探索如何压缩上下文,即“在不显著损失信息的前提下减少 token 数量”。
- DeepSeek 的创新视角:用图像替代文本来做压缩
DeepSeek 提出一种新的压缩方式——光学上下文压缩(Contexts Optical Compression):
把文本渲染成图像,用视觉模型将其编码成少量“视觉 token”,再用语言模型从这些 token 解码出文字。
换句话说,他们让模型“看图识字”来代替“逐字阅读”,把文字信息压缩进图像空间,从而实现大幅度的 token 减少。
- 理论出发点
文字是离散符号序列,而图像是连续视觉信号。 如果将文字图像化后交给视觉模型处理,信息密度可以显著提升。 DeepSeek 的假设是:
视觉表示是一种“更紧凑的信息表达”,可以在 1/10 的 token 数量下,保留接近完整的语义信息。
与传统 OCR 系统的区别
传统 OCR 系统(如 PaddleOCR、Tesseract)只做:
检测文字位置;
识别字符内容;
输出文本字符串。
而 DeepSeek-OCR 的目标是:
让模型具备“视觉语言协同理解能力”—— 它不仅识别文字,还能理解布局、表格、图像与上下文语义。
模型能把一个 PDF 或图片直接转化为:
Markdown(保持标题、表格、图片结构);
JSON(结构化内容提取);
自然语言描述(理解图文逻辑)。
主要特点
它能做什么
DeepSeek-OCR 可以完成以下任务:
举个例子: 如果你把一份财报的截图输入 DeepSeek-OCR, 它不仅能识别出数字和表格,还能生成结构化的 Markdown,甚至输出一句话总结:
“该季度营收同比增长 12.5%,主要来自海外市场。”
视觉任务扩展
DeepSeek-OCR 不仅能识字,还能执行更复杂的视觉语言任务:
图表 → HTML 表;
化学式 → SMILES;
几何图形解析;
多语言 PDF OCR;
图像描述(Captioning)。
这种“深度解析(Deep Parsing)”能力,使它从传统OCR进化为一个结构化视觉语言解析器。
模型设计:DeepSeek-OCR 的技术构成
技术原理
DeepSeek-OCR 的工作原理可以概括为“三步”: 1.
视觉编码
模型首先用 Transformer 提取图片特征(文字、布局、颜色等)。
语义压缩
把复杂的视觉信息压缩成一组高层次语义 token,让语言模型能理解。
语言推理
语言模型读取这些 token,根据指令生成文字、表格或摘要结果。
这种架构让 OCR 不再只是“识别字符”, 而是具备了“阅读理解”与“语义转换”能力。
技术构成
DeepSeek-OCR 是一个视觉语言模型(VLM),它由两部分组成
- DeepEncoder:核心创新
DeepEncoder 是论文的技术亮点。它的设计目标是:
能处理高分辨率图像;
激活内存低;
输出的视觉 token 数极少;
支持多种输入分辨率;
参数量中等,便于部署。
其内部结构由三部分组成:
这相当于在视觉模型中实现了“主动下采样”和“全局特征融合”的结合,使模型既能看清局部文字,又不会因为图像太大而爆显存。
- 多分辨率与动态模式
DeepSeek-OCR 设计了多种分辨率模式,以适应不同复杂度的文档:
其中 “Gundam 模式” 是 DeepSeek 的创新之一:
模型可根据图片复杂度自动组合多尺度特征输入, 提高识别在表格、图形混排文档中的精度。
这种分层分辨率设计不仅用于性能测试,也可动态调整压缩率。 例如,小模式(100 vision token)对应约 10× 压缩,大模式可降到 5×,而 Gundam 模式能处理极端大图。
- 解码器:DeepSeek3B-MoE
解码器采用 DeepSeek 系列的 Mixture-of-Experts(MoE)结构:
总参数约 3B;
推理时仅激活 570M 参数;
相当于用 500M 的推理成本获得 3B 模型的表达能力。
它的任务是学习从“视觉 token → 文本 token”的非线性映射,即图像到语言的压缩解码。
实验结果:光学压缩的可行性验证
- 压缩实验(Fox Benchmark)
测试目标:用极少视觉 token 重建出原文本
→ 结论:在压缩比低于 10× 时,模型几乎可以无损恢复文本内容。
- 实际性能(OmniDocBench)
对比主流 OCR 系统:
结果显示:
DeepSeek-OCR 在仅用 100–800 token 时达到甚至超过其他模型;
同时性能超过多模态大模型如 Qwen2.5-VL、InternVL3 等;
显示其压缩效率与解码精度兼优。
Prompt(指令)用法举例
你可以通过不同指令让 DeepSeek-OCR 执行不同任务:
理论意义与启示:视觉压缩与记忆建模
- “光学上下文压缩”与人类记忆的类比
论文提出一个极具启发性的观点:
光学压缩不仅是技术问题,也可作为记忆机制的模型。
他们将视觉压缩比拟为人类的“遗忘曲线”:
也就是说:
近期的上下文保留高分辨率图像(高保真信息);
较旧的上下文可被压缩为模糊图片(低信息密度);
这样既节约计算资源,又模拟了“遗忘”的自然过程。
- 对未来 LLM 的潜在影响
上下文可视化记忆(Visual Memory):旧对话历史可以被渲染为图片,压缩存储;
长上下文推理(Ultra-long Context Reasoning):理论上能突破传统 token 限制;
节能式记忆系统(Energy-efficient Memory System):减少模型调用成本;
多模态预训练融合:为未来的“视觉-语言混合记忆”模型奠定基础。
DeepSeek-OCR 并非仅仅是一个 OCR 模型,而是一种新的思维框架:
它尝试通过视觉模态重新定义“信息的压缩与记忆”, 把“看图识文”转化为一种高效的“上下文压缩”机制, 为下一代具备超长记忆与多模态理解能力的智能系统提供了可行路径。
📥 Model Download | 📄 Paper Link | 📄 Arxiv Paper Link |
GitHub:https://github.com/deepseek-ai/DeepSeek-OCR
来源:DeepSeek 发布了一个新型 OCR文档理解模型:DeepSeek-OCR 它不仅能解析图像文档 还探索了一个大胆的想法