文章详细介绍了阿里巴巴自主研发并开源的 Logics-Parsing 模型,旨在解决传统 OCR 和现有视觉语言模型在处理复杂 PDF 文档(如多栏排版、图文混排、专业公式、手写字)时存在的理解和阅读顺序不足的问题。Logics-Parsing 基于 Qwen2.5-VL 架构,采用“SFT-then-RL”两阶段训练策略,核心创新在于引入了以布局为中心的强化学习(LC-RL),通过精心挖掘标注的高质量难例数据集,并设计了文本准确性、定位精度和阅读逻辑多组件奖励函数,优化模型对复杂布局的分析和阅读顺序的推断。模型能够端到端地将 PDF 或图片内容转化为 Qwen HTML 或 Mathpix Markdown 格式,并支持数学公式复现、化学分子式还原(支持 SMILES 格式)、复杂表格解析和手写文字识别等功能。该模型在自建评测集上取得了业界最佳(SOTA)性能,并提供了 GitHub 代码、ModelScope 在线体验及技术报告。
src="https://api.eyabc.cn/api/picture/scenery/?k=120ab248&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FOmCbZ5JK30FEzllyicTEMC4m2APSKCReaeVQfOLO4FbWnwXbJTRtHkmocbNoowMumlD0bHjevSrtoeBvJRDAu3g%2F0%3Fwx_fmt%3Djpeg">
在工作学习中,我们时常有要将图片或PDF内容提取出来的诉求,而当前各工具的提取结果难以令人满意,例如:
· 手写的错题整理成电子笔记
· 参考资料中表格放进汇报PPT
· 化学等专业领域论文编辑使用
当资料中有多栏排版、图文混排、专业公式等情况时,哪怕是最近大火的视觉语言模型(LVLM)在理解复杂布局与阅读顺序也有明显不足。
在9月底云栖大会上,阿里巴巴-爱橙科技-数据技术及产品部团队自主研发的PDF解析神器——Logics-Parsing正式发布并同步开源模型!团队利用高质量难例数据集,引入以布局为中心的强化学习(Layout-centric Reinforcement Learning,LC-RL),通过“SFT-then-RL”两阶段训练策略确保模型合理规划阅读路径,强化复杂内容的识别能力。
GitHub入口:https://github.com/alibaba/Logics-Parsing
直接体验入口:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary
技术报告入口:https://arxiv.org/abs/2509.19760
什么是Logics-Parsing?
Logics-Parsing是一个强大的开源文档解析模型。该模型基于Qwen2.5-VL架构,通过在监督微调中融入化学式、手写汉字等多样化数据类型,进一步提升了模型在文档解析领域的通用性。此外,该模型引入精心设计的奖励机制,以优化复杂布局分析和阅读顺序推断。
Logics-Parsing可以轻松理解复杂排版,在保留自然的阅读顺序的同时,精准提取文字、表格、公式、手写字、化学分子式等内容,将PDF或图片转化为qwen-html或mathpix-markdow格式,解决文档解析作为AI应用落地的"最后一公里"难题,并在自建评测集上验证了Logics-Parsing模型在多种文档分析场景下的SOTA性能。
如何实现以布局为中心的强化学习?
以布局为中心的强化学习(Layout-centric Reinforcement Learning, LC-RL)采用 Group Relative Policy Optimization (GRPO) 算法,更适用于此类结构化输出优化场景。通过可对输出质量直接评估的综合性多组件奖励函数与精心挖掘标注的高质量难例数据集,引导模型生成更符合人类阅读习惯的结果。
在每次训练迭代中,我们会同时解析模型的预测结果与真实标签,从中提取构成元素:包括文本内容(如普通文本、数学公式等)及其对应的边界框坐标。基于这些信息,我们计算三个独立的奖励分量:
文本准确性奖励:通过负归一化 Levenshtein 距离(negative normalized Levenshtein distance)衡量预测文本与真实文本在字符级别的相似度;
定位精度奖励:评估预测边界框与真实边界框之间的匹配程度,引导模型将每个内容元素准确锚定到页面的正确位置;
阅读逻辑奖励:聚焦于优化解析内容的逻辑阅读流,其值通过计算参考段落顺序与预测段落顺序之间的成对逆序数(pairwise inversion count)得出。该奖励直接惩罚内容错序,在学习复杂、非线性的阅读路径(如多栏跳转)中至关重要。
最终,我们对每个样本将上述三个奖励分量进行线性加权组合,形成综合奖励信号,用于指导策略优化。
如何理解“SFT-then-RL”两阶段训练策略?通俗的讲,类似给孩子提分的错题集大法,先做名校名师出的重点题型金牌题库,夯实基础能力;然后把没有得高分比较薄弱的高复杂度竞赛题和冷门高区分度题目定向选出,由名师解析并规范此类型题目的解题步骤,先解A再解B最后解C,并制定出衡量答题步骤的多维度标准,在学生按步骤做对时给予奖励。

核心亮点
(一)轻松实现端到端处理
· 端到端模型架构无需多阶段流水线处理,从文档图像一步到位生成结构化输出
· 全局优化,在处理具有挑战性的布局的文档时表现优秀
(二)先进的内容元素识别能力
· 准确识别和结构化复杂内容,包括精确的科学公式、手写字等
· 智能识别化学结构,并可将其表示为标准的 SMILES 格式
(三)丰富的结构化输出
· 生成 Qwen HTML 来表示文档,保留其逻辑结构和阅读顺序
· 每个内容块(如段落、表格、图片、公式)都会被标记上其类别、边界框坐标和 OCR 内容
· 自动识别并过滤掉页眉、页脚等无关元素,仅关注核心内容
实战案例
· 数学公式复现:实现复杂数学符号的语义级识别,精确复现上下标、运算符等元素的空间结构关系,确保复杂公式的语义完整性和格式还原度。
|
|
|
· 化学分子式还原:精准解析原子连接拓扑与化学键类型,完整还原环状结构、官能团等特征的空间排布关系,支持转换输出为SMILES表达式。
|
|
|
· 复杂表格解析:保留合并单元格,保持行列对应关系,输出结构化表格数据,避免字符粘连及错行等问题,可直接用于数据分析与可视化处理。
|
|
|
· 手写文字识别:有效识别连笔字和个性化书写变体,支持印刷体与手写体混合识别,保留原始段落结构,适用于试卷批改、课堂笔记等典型场景。
|
|
|
效果卓越
Logics-Parsing 在自建PDF解析综合评测集上取得了业界最佳(SOTA) 的结果,在纯文本解析、化学结构识别和手写内容处理方面全面优于所有其他方法。

Demo地址
https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary
GitHub 地址
https://github.com/alibaba/Logics-Parsing
