这样也能识别？全球首个“歪文档克星”模型来了

AI 前线
1月31日
编辑

勇敢牛牛

文章宣布了百度新一代文档解析模型 PaddleOCR-VL-1.5 的正式发布与开源。该模型参数量仅为 0.9B，但在 OmniDocBench 等多个权威榜单中取得全球第一。其核心技术突破在于首次实现了“异形框定位”能力，能够精准识别歪斜、折叠、畸变等不规则文档，解决了传统 OCR 在移动拍照等真实场景中的痛点。此外，模型在表格理解、阅读顺序预测、印章识别及多语种支持方面均有显著提升，并已与多家硬件及平台伙伴完成生态集成。

火眼金睛识一切的 2026-01-29 20:19 北京

这样也能识别？全球首个“歪文档克星”模型来了

今天，新一代文档解析模型PaddleOCR-VL-1.5，正式发布并开源。这是全球首次实现文档解析模型的“异形框定位”能力，意味着新模型可以精准识别歪、折、糊等不规则文档，你甚至可以称之为“歪文档克星”。

01.

硬核数据

看模型水平

架构参数：仅为0.9B

整体精度：94.5%全球 SOTA

评测成绩：

文档解析评测集 OmniDocBench V1.5中取得全球综合性能第一

自然场景评估集 Real5-OmniDocBench 取得指标全面领先

同类对比：超越 Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型

这样也能识别？全球首个“歪文档克星”模型来了

在 OmniDocBench v1.5上，PaddleOCR-VL-1.5在多项关键指标中实现 SOTA

02.

“歪文档克星”

识别效果如何

PaddleOCR-VL-1.5全球首次实现了 OCR 模型的“异形框定位”能力，使机器能够精准识别倾斜、弯折、拍照畸变等非规则文档形态，首次让“歪文档”实现稳定、可规模化解析。

这个能力，解决了传统 OCR 模型在移动拍照、扫描件变形、复杂光照等真实场景中因文档形变导致的识别失败问题，可广泛应用于金融票据处理、档案数字化、政务文档流转等场景。

复杂光影

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

各类弯折

这样也能识别？全球首个“歪文档克星”模型来了

屏幕反光

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

03.

同类对比

什么能力最突出

PaddleOCR-VL-1.5是基于文心大模型进行开发的，在表格结构理解（92.8 分）和阅读顺序预测（95.8 分）两项核心指标上均位列第一，分别领先 Gemini-3-Pro、DeepSeek-OCR 等主流模型2–5分不等。

在文档阅读顺序预测任务中，其版面逻辑解析错误率仅为同类其他模型约一半。这样让PaddleOCR-VL-1.5在合同、财报等高复杂度业务场景中，就拥有了更高的可用性。

盖章表格

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

复杂表格

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

04.

跟自己比

哪些方面更进一步

去年10月16日，PaddleOCR-VL 模型首次发布并开源，在 OmniDocBench V1.5 榜单中取得全球 SOTA 成绩，并连续五天登顶 HuggingFace 全球模型总趋势榜与 ModelScope 全球模型总趋势榜双榜第一。

相比于上代，在功能层面，PaddleOCR-VL-1.5进一步集成印章识别、文本检测与识别等任务能力，关键指标持续领跑。

同时针对特殊场景与多语种识别进行系统优化，在特殊符号、古籍文献、多语种表格、下划线与复选框等复杂结构识别方面显著提升，并新增对藏语、孟加拉语等语种的支持。模型还支持跨页表格自动合并与跨页段落标题识别，有效解决长文档解析中的结构断裂问题。

设计图纸

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

漫画文字

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

传统古籍

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

抽象的手写

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

神奇的印章

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

阿拉伯语、泰米尔语

小语种也不在话下

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

这样也能识别？全球首个“歪文档克星”模型来了

05.

去哪体验？

目前，PaddleOCR-VL-1.5 已全面开源，开发者可通过GitHub、HuggingFace获取，并在 PaddleOCR 官网进行在线体验。

在线使用/API：https://www.paddleocr.com

开源项目地址：https://github.com/PaddlePaddle/PaddleOCR

模型下载地址：https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

此外，PaddleOCR-VL-1.5已与昆仑芯、沐曦股份、天数、海光‌、昇腾、此芯科技、Intel、ARM、AMD 等核心硬件厂商，以及百度智能云、国家超算互联网平台、硅基流动、魔搭社区、九章智算云、并行科技、Cherry Studio、Dify、Haystack、Novita AI 、PPIO、RAGFlow、Sophnet 等平台伙伴持续集成，方便用户在不同硬件环境与平台应用中使用。

跳转微信打开

Clawdbot 开发者：未来一大批应用都会消失，提示词就是新的 interface

2026-1-31 18:24:56

凭借 27 万小时真机数据，Generalist 可能是最接近“GPT-1 时刻”的顶级机器人团队

2026-1-31 18:25:08

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{data.mission.credit}}积分

今日签到

连续签到

1

全球顶尖大模型，通关不了“宝可梦”：这些游戏都是 AI 的噩梦
1月31日
2

马斯克最新三小时访谈：中国将在 AI 算力上远远超过其他国家，丰盛时代之前是大规模失业
1月13日
3

DeepSeek-R1 更新，思考更深，推理更强
1月3日
4

吴恩达：利用 AI 更快构建· 创业速度与实践 | YC 最新演讲图文 1.5 万字+问答| 附视频
1月3日
5

即将到来的 AI for Science 大爆发
1月31日
6

JavaScript 内存泄漏排查方法
25年12月23日

来自：

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部