AI 算法开源｜Logics-Parsing：攻克 PDF 复杂文档端到端结构化处理

文章详细介绍了阿里巴巴自主研发并开源的 Logics-Parsing 模型，旨在解决传统 OCR 和现有视觉语言模型在处理复杂 PDF 文档（如多栏排版、图文混排、专业公式、手写字）时存在的理解和阅读顺序不足的问题。Logics-Parsing 基于 Qwen2.5-VL 架构，采用“SFT-then-RL”两阶段训练策略，核心创新在于引入了以布局为中心的强化学习（LC-RL），通过精心挖掘标注的高质量难例数据集，并设计了文本准确性、定位精度和阅读逻辑多组件奖励函数，优化模型对复杂布局的分析和阅读顺序的推断。模型能够端到端地将 PDF 或图片内容转化为 Qwen HTML 或 Mathpix Markdown 格式，并支持数学公式复现、化学分子式还原（支持 SMILES 格式）、复杂表格解析和手写文字识别等功能。该模型在自建评测集上取得了业界最佳（SOTA）性能，并提供了 GitHub 代码、ModelScope 在线体验及技术报告。

src="https://api.eyabc.cn/api/picture/scenery/?k=120ab248&u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FOmCbZ5JK30FEzllyicTEMC4m2APSKCReaeVQfOLO4FbWnwXbJTRtHkmocbNoowMumlD0bHjevSrtoeBvJRDAu3g%2F0%3Fwx_fmt%3Djpeg">

在工作学习中，我们时常有要将图片或PDF内容提取出来的诉求，而当前各工具的提取结果难以令人满意，例如：

· 手写的错题整理成电子笔记

· 参考资料中表格放进汇报PPT

· 化学等专业领域论文编辑使用

当资料中有多栏排版、图文混排、专业公式等情况时，哪怕是最近大火的视觉语言模型（LVLM）在理解复杂布局与阅读顺序也有明显不足。

在9月底云栖大会上，阿里巴巴-爱橙科技-数据技术及产品部团队自主研发的PDF解析神器——Logics-Parsing正式发布并同步开源模型！团队利用高质量难例数据集，引入以布局为中心的强化学习（Layout-centric Reinforcement Learning，LC-RL），通过“SFT-then-RL”两阶段训练策略确保模型合理规划阅读路径，强化复杂内容的识别能力。

GitHub入口：https://github.com/alibaba/Logics-Parsing

直接体验入口：https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

技术报告入口：https://arxiv.org/abs/2509.19760

什么是Logics-Parsing？

Logics-Parsing是一个强大的开源文档解析模型。该模型基于Qwen2.5-VL架构，通过在监督微调中融入化学式、手写汉字等多样化数据类型，进一步提升了模型在文档解析领域的通用性。此外，该模型引入精心设计的奖励机制，以优化复杂布局分析和阅读顺序推断。

Logics-Parsing可以轻松理解复杂排版，在保留自然的阅读顺序的同时，精准提取文字、表格、公式、手写字、化学分子式等内容，将PDF或图片转化为qwen-html或mathpix-markdow格式，解决文档解析作为AI应用落地的"最后一公里"难题，并在自建评测集上验证了Logics-Parsing模型在多种文档分析场景下的SOTA性能。

如何实现以布局为中心的强化学习？

以布局为中心的强化学习（Layout-centric Reinforcement Learning, LC-RL）采用 Group Relative Policy Optimization (GRPO) 算法，更适用于此类结构化输出优化场景。通过可对输出质量直接评估的综合性多组件奖励函数与精心挖掘标注的高质量难例数据集，引导模型生成更符合人类阅读习惯的结果。

在每次训练迭代中，我们会同时解析模型的预测结果与真实标签，从中提取构成元素：包括文本内容（如普通文本、数学公式等）及其对应的边界框坐标。基于这些信息，我们计算三个独立的奖励分量：

文本准确性奖励：通过负归一化 Levenshtein 距离（negative normalized Levenshtein distance）衡量预测文本与真实文本在字符级别的相似度；

定位精度奖励：评估预测边界框与真实边界框之间的匹配程度，引导模型将每个内容元素准确锚定到页面的正确位置；

阅读逻辑奖励：聚焦于优化解析内容的逻辑阅读流，其值通过计算参考段落顺序与预测段落顺序之间的成对逆序数（pairwise inversion count）得出。该奖励直接惩罚内容错序，在学习复杂、非线性的阅读路径（如多栏跳转）中至关重要。

最终，我们对每个样本将上述三个奖励分量进行线性加权组合，形成综合奖励信号，用于指导策略优化。

如何理解“SFT-then-RL”两阶段训练策略？通俗的讲，类似给孩子提分的错题集大法，先做名校名师出的重点题型金牌题库，夯实基础能力；然后把没有得高分比较薄弱的高复杂度竞赛题和冷门高区分度题目定向选出，由名师解析并规范此类型题目的解题步骤，先解A再解B最后解C，并制定出衡量答题步骤的多维度标准，在学生按步骤做对时给予奖励。

AI 算法开源｜Logics-Parsing：攻克 PDF 复杂文档端到端结构化处理