这样也能识别?全球首个“歪文档克星”模型来了

文章宣布了百度新一代文档解析模型 PaddleOCR-VL-1.5 的正式发布与开源。该模型参数量仅为 0.9B,但在 OmniDocBench 等多个权威榜单中取得全球第一。其核心技术突破在于首次实现了“异形框定位”能力,能够精准识别歪斜、折叠、畸变等不规则文档,解决了传统 OCR 在移动拍照等真实场景中的痛点。此外,模型在表格理解、阅读顺序预测、印章识别及多语种支持方面均有显著提升,并已与多家硬件及平台伙伴完成生态集成。


火眼金睛识一切的 2026-01-29 20:19 北京

这样也能识别?全球首个“歪文档克星”模型来了

今天,新一代文档解析模型PaddleOCR-VL-1.5,正式发布并开源。这是全球首次实现文档解析模型的“异形框定位”能力,意味着新模型可以精准识别歪、折、糊等不规则文档,你甚至可以称之为“歪文档克星”。

01.

硬核数据

看模型水平

  • 架构参数:仅为0.9B

  • 整体精度:94.5%全球 SOTA

  • 评测成绩:

      • 文档解析评测集 OmniDocBench V1.5中取得全球综合性能第一

      • 自然场景评估集 Real5-OmniDocBench 取得指标全面领先

  • 同类对比:超越 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型

这样也能识别?全球首个“歪文档克星”模型来了

在 OmniDocBench v1.5上,PaddleOCR-VL-1.5在多项关键指标中实现 SOTA

02.

“歪文档克星”

识别效果如何

PaddleOCR-VL-1.5全球首次实现了 OCR 模型的“异形框定位”能力,使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态,首次让“歪文档”实现稳定、可规模化解析。

这个能力,解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题,可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。

 复杂光影 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

 各类弯折 

这样也能识别?全球首个“歪文档克星”模型来了

 屏幕反光 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

03.

同类对比

什么能力最突出

PaddleOCR-VL-1.5是基于文心大模型进行开发的,在表格结构理解(92.8 分)阅读顺序预测(95.8 分)两项核心指标上均位列第一,分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型2–5分不等。

在文档阅读顺序预测任务中,其版面逻辑解析错误率仅为同类其他模型约一半。这样让PaddleOCR-VL-1.5在合同、财报等高复杂度业务场景中,就拥有了更高的可用性。

 盖章表格 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

 复杂表格 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

04.

跟自己比

哪些方面更进一步

去年10月16日,PaddleOCR-VL 模型首次发布并开源,在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩,并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。

相比于上代,在功能层面,PaddleOCR-VL-1.5进一步集成印章识别、文本检测与识别等任务能力,关键指标持续领跑。

同时针对特殊场景与多语种识别进行系统优化,在特殊符号、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升,并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别,有效解决长文档解析中的结构断裂问题。

 设计图纸 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

 漫画文字 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

 传统古籍 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

 抽象的手写 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

 神奇的印章 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

 阿拉伯语、泰米尔语 

 小语种也不在话下 

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

这样也能识别?全球首个“歪文档克星”模型来了

05.

去哪体验?

目前,PaddleOCR-VL-1.5 已全面开源,开发者可通过GitHub、HuggingFace获取,并在 PaddleOCR 官网进行在线体验。

此外,PaddleOCR-VL-1.5已与昆仑芯、沐曦股份、天数、海光‌、昇腾、此芯科技、Intel、ARM、AMD 等核心硬件厂商,以及百度智能云、国家超算互联网平台、硅基流动、魔搭社区、九章智算云、并行科技、Cherry Studio、Dify、Haystack、Novita AI 、PPIO、RAGFlow、Sophnet 等平台伙伴持续集成,方便用户在不同硬件环境与平台应用中使用。

阅读原文

跳转微信打开

AI 前线

Clawdbot 开发者:未来一大批应用都会消失,提示词就是新的 interface

2026-1-31 18:24:56

AI 前线

凭借 27 万小时真机数据,Generalist 可能是最接近“GPT-1 时刻”的顶级机器人团队

2026-1-31 18:25:08

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索