本文深度解析了 DeepSeek 团队最新开源的 DeepSeek-OCR 2 模型。文章指出,传统 OCR 模型受限于 CLIP+ViT 的固定扫描范式,难以处理复杂排版。DeepSeek-OCR 2 进行了系统性重构:首先,弃用 CLIP,引入基于 Qwen2-0.5B 架构的 DeepEncoder V2,使视觉建模向语言建模对齐;其次,核心创新在于“视觉因果流(Visual Causal Flow)”,通过单向因果注意力机制让模型在编码阶段自主决定阅读顺序。此外,模型采用多视图机制平衡了细节与布局。实测显示,该模型在阅读顺序指标上大幅优化,标志着多模态视觉编码从特征提取向结构推理的范式转变。
在过去几年里,CLIP + ViT 几乎成为多模态系统的默认视觉编码范式。无论是 OCR、文档理解,还是通用视觉语言模型,图像都会被切成 patch,然后按照固定空间顺序送入模型。
这种做法在很多自然图像任务中足够有效,但在复杂文档场景中,却越来越暴露出根本性问题:
模型是在“扫描图像”,而不是在“阅读文档”。
论文、双栏排版、表格、公式、图文混排,本质上都带有强结构与强语义驱动的阅读顺序。人类阅读时,会根据上下文不断调整视线顺序,而不是机械地从左到右扫描。
DeepSeek 团队最新开源的DeepSeek-OCR 2,正是从这一核心问题出发,对视觉编码范式进行了系统性重构,提出了一个新的关键机制:
用“视觉因果流(Visual Causal Flow)”,让模型按语义而不是按坐标来读图。
这不仅带来了 OCR 指标的提升,也释放出一个更大的信号:多模态模型的视觉编码,正在从 CLIP 时代,走向 LLM 主导的新阶段。

OCR 的结构性瓶颈:不是字难,而是“顺序错”
在真实 OCR 应用中,最常见的问题往往不是:某个字识别不出来。而是:段落顺序错乱,双栏串行,表格行列错位,公式与说明分离,图文混排逻辑错误。这些问题的本质,并不是字符级识别能力不足,而是:
模型没有真正学会“怎么读文档”。
传统 OCR 或多模态模型,普遍采用固定扫描顺序:
-
从左到右
-
从上到下
-
patch flatten 后顺序写死
这种设计隐含了一个默认假设:空间顺序 = 语义顺序。在复杂排版文档中,这个假设往往是错误的。DeepSeek-OCR 2 的核心判断是:
视觉模型真正缺失的,不是更强特征,而是对“阅读顺序”的建模能力。
告别 CLIP:用 LLM 风格架构重构视觉编码
DeepSeek-OCR 2 最显著的变化,是对视觉编码器的重新设计,引入了新的视觉压缩模块DeepEncoder V2。与主流做法不同,这一代模型:不再使用 CLIP 作为视觉高层编码器,而是引入 LLM 风格的小型 Transformer(基于 Qwen2-0.5B 架构),作为视觉 token 的建模与压缩模块。这一步带来的并不只是“换 backbone”,而是两个关键变化:
-
视觉建模方式与语言建模在结构上对齐
-
为引入因果顺序建模提供天然结构基础
视觉编码不再只是 ViT 风格的特征提取,而是开始向“语言式建模”靠拢。
视觉因果流:在编码阶段决定“怎么看图”
DeepSeek-OCR 2 的核心创新,是引入了一组全新的causal flow queries(视觉因果流查询)。整体结构可以理解为双通路:
-
原始视觉 token:使用双向 attention,提取空间特征(类似 ViT)
-
因果流 query token:使用单向 causal attention,形成因果序列(类似 LLM)
每一个因果流 query:可以访问所有视觉 token,只能访问前面的 query,从而在内部形成一个逐步展开的“阅读路径”。这意味着,编码器内部第一次显式引入了:
对视觉信息的“顺序重排能力”。
模型不再只是被动接收 patch,而是在编码阶段就开始主动决定什么先看、什么后看。最终,送入解码器的,不再是原始 patch 顺序,而是已经经过因果重排的 query 序列。从整体结构上看,相当于:
-
Encoder:负责“视觉阅读逻辑”
-
Decoder:负责“任务级因果推理”
论文将这种结构概括为:
two-cascaded 1D causal reasoning
用两层 1D 因果结构,逼近真实世界的 2D 语义理解。
工程权衡:高压缩 + 多视图,兼顾效果与成本
尽管架构发生了较大变化,DeepSeek-OCR 2 并没有通过简单增加 token 数来换效果:视觉 token 保持 16× 压缩,最大 1120 个视觉 token。与主流多模态系统对齐,同时引入 multi-crop 多视图机制:
-
全局视图:建模整体布局
-
局部视图:强化细节区域
这种设计在真实复杂文档场景中非常关键,使模型在表格、脚注、小字体、公式等区域表现更加稳健。
训练与数据:强化“重排与结构建模”
在训练流程上,DeepSeek-OCR 2 也围绕“阅读顺序”做了针对性设计:
-
Encoder 预训练:学习基础视觉特征与初步重排能力
-
Query 增强阶段:强化因果流 query 对结构信息的表达
-
冻结 Encoder,训练 Decoder:让语言模型适应新的视觉 token 顺序
数据层面,OCR 数据占比超过 80%,并对:多栏文档、表格、公式进行了更均衡采样,从数据分布层面强化复杂结构场景。
实验与实测:不仅更准,而且“读得更对”
在 OmniDocBench v1.5 基准上:DeepSeek-OCR 2:91.09%,相比上一代提升:+3.73%。
更关键的是阅读顺序指标(R-order Edit Distance):从 0.085 降至 0.057。
这表明模型在文档结构与阅读逻辑层面,更接近人类阅读方式。线上实测同样显示明显收益:
-
在线 OCR 重复率:6.25% → 4.17%
-
PDF 批处理重复率:3.69% → 2.88%
这类结构性指标,往往比字符级准确率更贴近真实业务体验。
更大的趋势:视觉正在变成“结构推理问题”
从 DeepSeek-OCR 2 可以看到一个更大的趋势:
-
视觉编码不再只是特征提取
-
视觉顺序不再等同于空间顺序
-
多模态建模开始显式引入因果结构
-
OCR 正在演化为“文档结构理解问题”
从这个角度看,“视觉因果流”并不是一个 OCR 专用技巧,而是对多模态视觉建模方式的一次重新定义。
DeepSeek-OCR 2 带来的,不只是 OCR 指标提升,而是一种新的阅读范式:
从固定扫描,
到语义驱动的结构化阅读。
当视觉模型开始学会决定“怎么看”,多模态系统距离真正理解复杂视觉结构,也就更近了一步。
附该论文英中对照版,仅供学习参考,感兴趣的朋友可以关注AINLP公众号回复'deepseekocr'获取该技术报告英中对照版pdf全文:





感兴趣的朋友可以关注AINLP公众号回复'deepseekocr'获取该技术报告英中对照版pdf全文

