本文深度解析了 DeepSeek 团队最新开源的 DeepSeek-OCR 2 模型。文章指出，传统 OCR 模型受限于 CLIP+ViT 的固定扫描范式，难以处理复杂排版。DeepSeek-OCR 2 进行了系统性重构：首先，弃用 CLIP，引入基于 Qwen2-0.5B 架构的 DeepEncoder V2，使视觉建模向语言建模对齐；其次，核心创新在于“视觉因果流（Visual Causal Flow）”，通过单向因果注意力机制让模型在编码阶段自主决定阅读顺序。此外，模型采用多视图机制平衡了细节与布局。实测显示，该模型在阅读顺序指标上大幅优化，标志着多模态视觉编码从特征提取向结构推理的范式转变。

在过去几年里，CLIP + ViT 几乎成为多模态系统的默认视觉编码范式。无论是 OCR、文档理解，还是通用视觉语言模型，图像都会被切成 patch，然后按照固定空间顺序送入模型。

这种做法在很多自然图像任务中足够有效，但在复杂文档场景中，却越来越暴露出根本性问题：

模型是在“扫描图像”，而不是在“阅读文档”。

论文、双栏排版、表格、公式、图文混排，本质上都带有强结构与强语义驱动的阅读顺序。人类阅读时，会根据上下文不断调整视线顺序，而不是机械地从左到右扫描。

DeepSeek 团队最新开源的DeepSeek-OCR 2，正是从这一核心问题出发，对视觉编码范式进行了系统性重构，提出了一个新的关键机制：

用“视觉因果流（Visual Causal Flow）”，让模型按语义而不是按坐标来读图。

这不仅带来了 OCR 指标的提升，也释放出一个更大的信号：多模态模型的视觉编码，正在从 CLIP 时代，走向 LLM 主导的新阶段。

告别固定扫描：DeepSeek-OCR 2 用“视觉因果流”，重构多模态阅读方式

OCR 的结构性瓶颈：不是字难，而是“顺序错”

在真实 OCR 应用中，最常见的问题往往不是：某个字识别不出来。而是：段落顺序错乱，双栏串行，表格行列错位，公式与说明分离，图文混排逻辑错误。这些问题的本质，并不是字符级识别能力不足，而是：

模型没有真正学会“怎么读文档”。

传统 OCR 或多模态模型，普遍采用固定扫描顺序：

从左到右
从上到下
patch flatten 后顺序写死

这种设计隐含了一个默认假设：空间顺序 = 语义顺序。在复杂排版文档中，这个假设往往是错误的。DeepSeek-OCR 2 的核心判断是：

视觉模型真正缺失的，不是更强特征，而是对“阅读顺序”的建模能力。

告别 CLIP：用 LLM 风格架构重构视觉编码

DeepSeek-OCR 2 最显著的变化，是对视觉编码器的重新设计，引入了新的视觉压缩模块DeepEncoder V2。与主流做法不同，这一代模型：不再使用 CLIP 作为视觉高层编码器，而是引入 LLM 风格的小型 Transformer（基于 Qwen2-0.5B 架构），作为视觉 token 的建模与压缩模块。这一步带来的并不只是“换 backbone”，而是两个关键变化：

视觉建模方式与语言建模在结构上对齐
为引入因果顺序建模提供天然结构基础

视觉编码不再只是 ViT 风格的特征提取，而是开始向“语言式建模”靠拢。

视觉因果流：在编码阶段决定“怎么看图”

DeepSeek-OCR 2 的核心创新，是引入了一组全新的causal flow queries（视觉因果流查询）。整体结构可以理解为双通路：

原始视觉 token：使用双向 attention，提取空间特征（类似 ViT）
因果流 query token：使用单向 causal attention，形成因果序列（类似 LLM）

每一个因果流 query：可以访问所有视觉 token，只能访问前面的 query，从而在内部形成一个逐步展开的“阅读路径”。这意味着，编码器内部第一次显式引入了：

对视觉信息的“顺序重排能力”。

模型不再只是被动接收 patch，而是在编码阶段就开始主动决定什么先看、什么后看。最终，送入解码器的，不再是原始 patch 顺序，而是已经经过因果重排的 query 序列。从整体结构上看，相当于：

Encoder：负责“视觉阅读逻辑”
Decoder：负责“任务级因果推理”

论文将这种结构概括为：

two-cascaded 1D causal reasoning

用两层 1D 因果结构，逼近真实世界的 2D 语义理解。

工程权衡：高压缩 + 多视图，兼顾效果与成本

尽管架构发生了较大变化，DeepSeek-OCR 2 并没有通过简单增加 token 数来换效果：视觉 token 保持 16× 压缩，最大 1120 个视觉 token。与主流多模态系统对齐，同时引入 multi-crop 多视图机制：

全局视图：建模整体布局
局部视图：强化细节区域

这种设计在真实复杂文档场景中非常关键，使模型在表格、脚注、小字体、公式等区域表现更加稳健。

训练与数据：强化“重排与结构建模”

在训练流程上，DeepSeek-OCR 2 也围绕“阅读顺序”做了针对性设计：

Encoder 预训练：学习基础视觉特征与初步重排能力
Query 增强阶段：强化因果流 query 对结构信息的表达
冻结 Encoder，训练 Decoder：让语言模型适应新的视觉 token 顺序

数据层面，OCR 数据占比超过 80%，并对：多栏文档、表格、公式进行了更均衡采样，从数据分布层面强化复杂结构场景。

实验与实测：不仅更准，而且“读得更对”

在 OmniDocBench v1.5 基准上：DeepSeek-OCR 2：91.09%，相比上一代提升：+3.73%。

更关键的是阅读顺序指标（R-order Edit Distance）：从 0.085 降至 0.057。

这表明模型在文档结构与阅读逻辑层面，更接近人类阅读方式。线上实测同样显示明显收益：

在线 OCR 重复率：6.25% → 4.17%
PDF 批处理重复率：3.69% → 2.88%

这类结构性指标，往往比字符级准确率更贴近真实业务体验。

更大的趋势：视觉正在变成“结构推理问题”

从 DeepSeek-OCR 2 可以看到一个更大的趋势：

视觉编码不再只是特征提取
视觉顺序不再等同于空间顺序
多模态建模开始显式引入因果结构
OCR 正在演化为“文档结构理解问题”

从这个角度看，“视觉因果流”并不是一个 OCR 专用技巧，而是对多模态视觉建模方式的一次重新定义。

DeepSeek-OCR 2 带来的，不只是 OCR 指标提升，而是一种新的阅读范式：

从固定扫描，

到语义驱动的结构化阅读。

当视觉模型开始学会决定“怎么看”，多模态系统距离真正理解复杂视觉结构，也就更近了一步。

附该论文英中对照版，仅供学习参考，感兴趣的朋友可以关注AINLP公众号回复'deepseekocr'获取该技术报告英中对照版pdf全文：

告别固定扫描：DeepSeek-OCR 2 用“视觉因果流”，重构多模态阅读方式

感兴趣的朋友可以关注AINLP公众号回复'deepseekocr'获取该技术报告英中对照版pdf全文

{{userData.name}}已认证

告别固定扫描：DeepSeek-OCR 2 用“视觉因果流”，重构多模态阅读方式

OCR 的结构性瓶颈：不是字难，而是“顺序错”

告别 CLIP：用 LLM 风格架构重构视觉编码

视觉因果流：在编码阶段决定“怎么看图”

工程权衡：高压缩 + 多视图，兼顾效果与成本

训练与数据：强化“重排与结构建模”

实验与实测：不仅更准，而且“读得更对”

更大的趋势：视觉正在变成“结构推理问题”

JavaScript 中文周刊 #221 - LibPDF：TypeScript 里的 PDF 解析与生成

AI 加入群聊这事，可能还是得腾讯来做

从《塞尔达传说》到 AI Agent：Claude Skills 背后的信息分层设计哲学

我的创业公司如何在 7 次失败后进入 Y Combinator

124. 年终回顾【站在 2025 年之外】和戴雨森聊 2026 年预期、The Year of R、回调、我们如何下注

中国 AI 硬件，正在经历一场「物种大爆发」

使用 Clawdbot + DMR 运行私有个人 AI

斯坦福最新研究：硅谷的 AI 创业潮，其实是一场大型的资源错配