告别固定扫描:DeepSeek-OCR 2 用“视觉因果流”,重构多模态阅读方式

本文深度解析了 DeepSeek 团队最新开源的 DeepSeek-OCR 2 模型。文章指出,传统 OCR 模型受限于 CLIP+ViT 的固定扫描范式,难以处理复杂排版。DeepSeek-OCR 2 进行了系统性重构:首先,弃用 CLIP,引入基于 Qwen2-0.5B 架构的 DeepEncoder V2,使视觉建模向语言建模对齐;其次,核心创新在于“视觉因果流(Visual Causal Flow)”,通过单向因果注意力机制让模型在编码阶段自主决定阅读顺序。此外,模型采用多视图机制平衡了细节与布局。实测显示,该模型在阅读顺序指标上大幅优化,标志着多模态视觉编码从特征提取向结构推理的范式转变。




在过去几年里,CLIP + ViT 几乎成为多模态系统的默认视觉编码范式。无论是 OCR、文档理解,还是通用视觉语言模型,图像都会被切成 patch,然后按照固定空间顺序送入模型。

这种做法在很多自然图像任务中足够有效,但在复杂文档场景中,却越来越暴露出根本性问题:

模型是在“扫描图像”,而不是在“阅读文档”。

论文、双栏排版、表格、公式、图文混排,本质上都带有强结构与强语义驱动的阅读顺序。人类阅读时,会根据上下文不断调整视线顺序,而不是机械地从左到右扫描。

DeepSeek 团队最新开源的DeepSeek-OCR 2,正是从这一核心问题出发,对视觉编码范式进行了系统性重构,提出了一个新的关键机制:

用“视觉因果流(Visual Causal Flow)”,让模型按语义而不是按坐标来读图。

这不仅带来了 OCR 指标的提升,也释放出一个更大的信号:多模态模型的视觉编码,正在从 CLIP 时代,走向 LLM 主导的新阶段。

告别固定扫描:DeepSeek-OCR 2 用“视觉因果流”,重构多模态阅读方式

OCR 的结构性瓶颈:不是字难,而是“顺序错”

在真实 OCR 应用中,最常见的问题往往不是:某个字识别不出来。而是:段落顺序错乱,双栏串行,表格行列错位,公式与说明分离,图文混排逻辑错误。这些问题的本质,并不是字符级识别能力不足,而是:

模型没有真正学会“怎么读文档”。

传统 OCR 或多模态模型,普遍采用固定扫描顺序:

  • 从左到右

  • 从上到下

  • patch flatten 后顺序写死

这种设计隐含了一个默认假设:空间顺序 = 语义顺序。在复杂排版文档中,这个假设往往是错误的。DeepSeek-OCR 2 的核心判断是:

视觉模型真正缺失的,不是更强特征,而是对“阅读顺序”的建模能力。

告别 CLIP:用 LLM 风格架构重构视觉编码

DeepSeek-OCR 2 最显著的变化,是对视觉编码器的重新设计,引入了新的视觉压缩模块DeepEncoder V2。与主流做法不同,这一代模型:不再使用 CLIP 作为视觉高层编码器,而是引入 LLM 风格的小型 Transformer(基于 Qwen2-0.5B 架构),作为视觉 token 的建模与压缩模块。这一步带来的并不只是“换 backbone”,而是两个关键变化:

  • 视觉建模方式与语言建模在结构上对齐

  • 为引入因果顺序建模提供天然结构基础

视觉编码不再只是 ViT 风格的特征提取,而是开始向“语言式建模”靠拢。

视觉因果流:在编码阶段决定“怎么看图”

DeepSeek-OCR 2 的核心创新,是引入了一组全新的causal flow queries(视觉因果流查询)。整体结构可以理解为双通路:

  • 原始视觉 token:使用双向 attention,提取空间特征(类似 ViT)

  • 因果流 query token:使用单向 causal attention,形成因果序列(类似 LLM)

每一个因果流 query:可以访问所有视觉 token,只能访问前面的 query,从而在内部形成一个逐步展开的“阅读路径”。这意味着,编码器内部第一次显式引入了:

对视觉信息的“顺序重排能力”。

模型不再只是被动接收 patch,而是在编码阶段就开始主动决定什么先看、什么后看。最终,送入解码器的,不再是原始 patch 顺序,而是已经经过因果重排的 query 序列。从整体结构上看,相当于:

  • Encoder:负责“视觉阅读逻辑”

  • Decoder:负责“任务级因果推理”

论文将这种结构概括为:

two-cascaded 1D causal reasoning


用两层 1D 因果结构,逼近真实世界的 2D 语义理解。

工程权衡:高压缩 + 多视图,兼顾效果与成本

尽管架构发生了较大变化,DeepSeek-OCR 2 并没有通过简单增加 token 数来换效果:视觉 token 保持 16× 压缩,最大 1120 个视觉 token。与主流多模态系统对齐,同时引入 multi-crop 多视图机制:

  • 全局视图:建模整体布局

  • 局部视图:强化细节区域

这种设计在真实复杂文档场景中非常关键,使模型在表格、脚注、小字体、公式等区域表现更加稳健。

训练与数据:强化“重排与结构建模”

在训练流程上,DeepSeek-OCR 2 也围绕“阅读顺序”做了针对性设计:

  • Encoder 预训练:学习基础视觉特征与初步重排能力

  • Query 增强阶段:强化因果流 query 对结构信息的表达

  • 冻结 Encoder,训练 Decoder:让语言模型适应新的视觉 token 顺序

数据层面,OCR 数据占比超过 80%,并对:多栏文档、表格、公式进行了更均衡采样,从数据分布层面强化复杂结构场景。

实验与实测:不仅更准,而且“读得更对”

在 OmniDocBench v1.5 基准上:DeepSeek-OCR 2:91.09%,相比上一代提升:+3.73%。

更关键的是阅读顺序指标(R-order Edit Distance):从 0.085 降至 0.057。

这表明模型在文档结构与阅读逻辑层面,更接近人类阅读方式。线上实测同样显示明显收益:

  • 在线 OCR 重复率:6.25% → 4.17%

  • PDF 批处理重复率:3.69% → 2.88%

这类结构性指标,往往比字符级准确率更贴近真实业务体验。

更大的趋势:视觉正在变成“结构推理问题”

从 DeepSeek-OCR 2 可以看到一个更大的趋势:

  • 视觉编码不再只是特征提取

  • 视觉顺序不再等同于空间顺序

  • 多模态建模开始显式引入因果结构

  • OCR 正在演化为“文档结构理解问题”

从这个角度看,“视觉因果流”并不是一个 OCR 专用技巧,而是对多模态视觉建模方式的一次重新定义。

DeepSeek-OCR 2 带来的,不只是 OCR 指标提升,而是一种新的阅读范式:

从固定扫描,


到语义驱动的结构化阅读。

当视觉模型开始学会决定“怎么看”,多模态系统距离真正理解复杂视觉结构,也就更近了一步。

附该论文英中对照版,仅供学习参考,感兴趣的朋友可以关注AINLP公众号回复'deepseekocr'获取该技术报告英中对照版pdf全文:

告别固定扫描:DeepSeek-OCR 2 用“视觉因果流”,重构多模态阅读方式

告别固定扫描:DeepSeek-OCR 2 用“视觉因果流”,重构多模态阅读方式

告别固定扫描:DeepSeek-OCR 2 用“视觉因果流”,重构多模态阅读方式

告别固定扫描:DeepSeek-OCR 2 用“视觉因果流”,重构多模态阅读方式

告别固定扫描:DeepSeek-OCR 2 用“视觉因果流”,重构多模态阅读方式

感兴趣的朋友可以关注AINLP公众号回复'deepseekocr'获取该技术报告英中对照版pdf全文


AI 前线

JavaScript 中文周刊 #221 - LibPDF:TypeScript 里的 PDF 解析与生成

2026-1-31 19:08:43

AI 前线

AI 加入群聊这事,可能还是得腾讯来做

2026-1-31 19:08:49

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索