文章宣布了百度新一代文档解析模型 PaddleOCR-VL-1.5 的正式发布与开源。该模型参数量仅为 0.9B,但在 OmniDocBench 等多个权威榜单中取得全球第一。其核心技术突破在于首次实现了“异形框定位”能力,能够精准识别歪斜、折叠、畸变等不规则文档,解决了传统 OCR 在移动拍照等真实场景中的痛点。此外,模型在表格理解、阅读顺序预测、印章识别及多语种支持方面均有显著提升,并已与多家硬件及平台伙伴完成生态集成。
火眼金睛识一切的 2026-01-29 20:19 北京

今天,新一代文档解析模型PaddleOCR-VL-1.5,正式发布并开源。这是全球首次实现文档解析模型的“异形框定位”能力,意味着新模型可以精准识别歪、折、糊等不规则文档,你甚至可以称之为“歪文档克星”。
01.
硬核数据
看模型水平
-
架构参数:仅为0.9B
-
整体精度:94.5%全球 SOTA
-
评测成绩:
-
文档解析评测集 OmniDocBench V1.5中取得全球综合性能第一
-
自然场景评估集 Real5-OmniDocBench 取得指标全面领先
-
同类对比:超越 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型

在 OmniDocBench v1.5上,PaddleOCR-VL-1.5在多项关键指标中实现 SOTA
02.
“歪文档克星”
识别效果如何
PaddleOCR-VL-1.5全球首次实现了 OCR 模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。
这个能力,解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。
复杂光影


各类弯折

屏幕反光


03.
同类对比
什么能力最突出
PaddleOCR-VL-1.5是基于文心大模型进行开发的,在表格结构理解(92.8 分)和阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型2–5分不等。
在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这样让PaddleOCR-VL-1.5在合同、财报等高复杂度业务场景中,就拥有了更高的可用性。
盖章表格


复杂表格


04.
跟自己比
哪些方面更进一步
去年10月16日,PaddleOCR-VL 模型首次发布并开源,在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩,并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。
相比于上代,在功能层面,PaddleOCR-VL-1.5进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑。
同时针对特殊场景与多语种识别进行系统优化,在特殊符号、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。
设计图纸


漫画文字


传统古籍


抽象的手写




神奇的印章


阿拉伯语、泰米尔语
小语种也不在话下




05.
去哪体验?
目前,PaddleOCR-VL-1.5 已全面开源,开发者可通过GitHub、HuggingFace获取,并在 PaddleOCR 官网进行在线体验。
-
在线使用/API:https://www.paddleocr.com
此外,PaddleOCR-VL-1.5已与昆仑芯、沐曦股份、天数、海光、昇腾、此芯科技、Intel、ARM、AMD 等核心硬件厂商,以及百度智能云、国家超算互联网平台、硅基流动、魔搭社区、九章智算云、并行科技、Cherry Studio、Dify、Haystack、Novita AI 、PPIO、RAGFlow、Sophnet 等平台伙伴持续集成,方便用户在不同硬件环境与平台应用中使用。

