Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

本文详细介绍了由阿里集团与复旦大学联合研发的 Logics-STEM 推理模型。该研究将 LLM 的后训练过程形式化为分布匹配问题，创新性地提出了“错题驱动”的后训练框架。通过识别模型在 SFT 阶段的失败案例，结合知识增强检索与双验证数据合成技术，显式修正模型分布与目标分布的偏差。实验表明，Logics-STEM-8B 在 AIME、GPQA 等权威 STEM 基准测试中表现卓越，超越了同尺寸开源模型。项目同时开源了高质量的 2.2M 长思维链（CoT）数据集、模型权重及代码，为社区研究复杂推理提供了重要基础设施。

阿里与复旦推出Logics-STEM，通过“错题”驱动的数据-算法协同框架，在8B参数量级实现STEM推理新SOTA，并全链路开源模型、数据与代码。

在大语言模型（LLM）推理能力持续演进的技术浪潮中，阿里集团与复旦大学联合推出的Logics-STEM，为科学、技术、工程与数学（STEM）领域的LLM复杂推理任务提供了一种可复现、可扩展的数据-算法协同设计范式。该技术报告（arXiv:2601.01562）系统阐述了如何通过大规模数据工程与“错题”驱动的后训练框架，在8B参数量级实现超越现有开源模型的推理性能，并全面开放模型权重、训练数据与实现细节，为社区推动推理模型研究提供了重要基础设施。

说明：在zero-shot评测设定下，Logics-STEM-8B-RL在多项权威基准中展现出卓越性能。

通过在数据工程与算法设计之间建立协同优化闭环，Logics-STEM在同等参数量级下实现了推理能力的精准跃升。下文将系统阐述支撑上述结果的核心技术框架：首先将SFT-RL流程形式化为分布匹配问题，进而通过"错题"驱动机制实现高效的目标分布对齐。

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

当前主流推理模型（如OpenAI o1系列、DeepSeek-R1）的后训练策略多聚焦于单一算法优化，而训练数据构建与算法设计之间的协同机制尚未形成系统化理论。Logics-STEM首次将SFT-RL后训练流程形式化为分布匹配问题，提出两阶段协同优化框架：

（1）第一阶段SFT：构建高质量提议分布（Proposal Distribution）

通过千万规模（过滤并降采样至~2.2M）的长思维链（Long CoT）语料库Logics-STEM-SFT-Dataset，为模型提供覆盖广泛推理模式的先验分布。该数据集经过去重、去污染、难度分层、知识蒸馏五阶段净化，是目前开源社区中规模最大、质量最高的长CoT语料之一。

（2）第二阶段后训练：“错题”（Failure）驱动的目标分布对齐

基于模型在基准测试（如AIME、GPQA-Diamond等）上的失败案例（即“错题”），检索匹配外部知识文档并合成高质量训练样本，通过SFT或RL显式修正提议分布与黄金标准分布之间的密度比偏差。理论证明表明，该策略能使梯度更新方向与理想目标梯度保持更高对齐度，从而在相同步长下获得更优风险下降。

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

Logics-STEM-SFT-Dataset的构建体现了严谨的工程实践：

• 多源聚合：整合HuggingFace高引用开源数据集（NuminaMath、OpenThoughts、OpenScienceReasoning等），通过自研Logics-Parsing工具实现私有PDF文档的结构化解析，确保公式、图表与逻辑结构的完整性。

• 精细化标注：基于Qwen3-235B-Instruct对每一样本进行有效性、学科领域、教育层级、答案类型等六维度标注，过滤无效与歧义样本。

• 去重与去污染：采用MD5指纹与MinHash算法进行精确/模糊去重，并通过13-gram匹配消除与测评基准的潜在数据污染。

• 难度感知采样：以响应长度为难度代理指标，采用加权分层采样策略保留高难度样本，避免纯长度采样导致的初级推理能力灾难性遗忘。

最终形成的由Qwen3-235B-A22B-Thinking作为教师模型蒸馏的2.2M精选数据子集（1.05M数学+1.14M STEM），实现了推理密度与多样性的有效平衡。

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

1. 失败区域识别

在第一阶段SFT后，模型在黄金标准分布（如AIME2025、MMLU）上的错误案例被定义为失败区域。通过二进制指示函数量化样本重要性，构建失败案例驱动的查询分布，显著提升高密度比区域的采样权重。

2. 知识增强检索

针对失败样本，基于Qwen3-8B-Embed模型在私有知识库（学术文献、教材等PDF corpus）中检索Top-30语义相关文档，构建稀疏检索核。该机制将失败案例查询映射至知识空间邻域，为后续数据合成提供高保真上下文。

3. 双验证数据合成

以DeepSeek-R1为合成内核，针对每篇检索文档生成两个QA对，并通过“联合生成-独立再生成”的双验证机制确保答案一致性。仅保留答案一致样本，并以思维链长度作为难度筛选指标，最终形成约30K高质量、高难度的知识对齐训练数据。

4. 理论保障

论文严格证明了在且检索与合成内核有效的条件下，失败案例驱动训练目标与理想目标梯度的内积显著优于原始分布梯度，从而保证单步更新的风险下降更优。该结论同时适用于SFT与RLVR两种范式。

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

在零样本（zero-shot）测评下，Logics-STEM-8B-RL在多项权威基准中展现出卓越性能：

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

值得关注的是，Logics-STEM-8B-SFT（未经过RL）已可达到与Klear-Reasoner-8B-RL相当的性能，表明高质量数据蒸馏在中小规模模型上可部分替代RL训练，为资源受限场景提供了可行路径。而在错题驱动的进一步RLVR下，模型仍能进一步提升推理水准（即，向黄金分布逼近）。

此外，该框架展现出优异的跨模型与跨范式泛化能力：

• 模型规模扩展：基于Qwen3-32B微调的SFT模型在AIME2024上达92.71%，HMMT2025达89.38%，验证数据引擎对更大模型的有效性。

• 基座模型泛化性：基于Qwen3-8B-Base微调的SFT模型取得了与Logics-STEM-8B-SFT相近的表现，证明该数据引擎可独立为STEM领域的后训练提供支持，不依赖现有SFT模型。

• 训练范式通用性：“错题”驱动合成数据在持续 SFT（Continual SFT）与RLVR中均取得近乎一致增益，1:1混合比例下效果媲美纯RL训练。

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

Logics-STEM项目坚持全链路开源，对外发布：

• 模型权重：HuggingFace已开源8B规模模型权重、SFT/RL双版本

• 训练数据：1.6M精选版长CoT数据集与5.3M完整版（即将发布），附带难度标签与学科分类

我们相信，“好数据”比“大算力”更稀缺。此次开源大规模长 CoT 数据，是希望把高质量推理数据的获取门槛降到最低，让更多研究者都能便捷使用、共同验证与迭代，促进推理模型整体能力的持续进步。

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

Logics-STEM通过数据-算法协同设计，在STEM推理任务中实现了开源模型的性能新突破。其核心价值在于将后训练视为分布匹配问题，并系统化地利用失败信号驱动数据合成，从而高效缩小提议分布与目标分布的差距。未来工作将探索更大规模模型、Agentic Reasoning能力，并持续优化RL算法的稳定性与可扩展性。

项目链接

技术报告: Logics-STEM: Empowering LLM Reasoning via Failure-Driven Post-Training and Document Knowledge Enhancement（https://arxiv.org/abs/2601.01562v1）

模型与数据:

Logics-MLLM/Logics-STEM-8B-SFT（https://huggingface.co/Logics-MLLM/Logics-STEM-8B-SFT）

Logics-MLLM/Logics-STEM-8B-RL（https://huggingface.co/Logics-MLLM/Logics-STEM-8B-RL）

Logics-MLLM/Logics-STEM-SFT-Dataset-Open-1.6M（https://huggingface.co/datasets/Logics-MLLM/Logics-STEM-SFT-Dataset-Open-1.6M）

Logics-MLLM/Logics-STEM-SFT-Dataset-Open-5.3M（https://huggingface.co/datasets/Logics-MLLM/Logics-STEM-SFT-Dataset-Open-5.3M）

点击“阅读原文”查看技术报告

{{userData.name}}已认证

Logics-STEM：错题驱动练就 8B 参数 STEM 推理模型新 SOTA！

谷歌这套图标设计标准，零基础也能快速掌握

从 ReAct 到 Ralph Loop：AI Agent 的持续迭代范式

春节 AI 大战杀疯了！千问 APP 发起奶茶攻势，每人可领 525 元免单卡

DeepSeek-OCR 是「长文本理解」未来方向？中科院新基准 VTCBench 给出答案

Vue Skills、React Skills 正式发布，官方力荐！

从 RLHF、PPO 到 GRPO 再训练推理模型，这是你需要的强化学习入门指南｜机器之心

动画师与 AI 研究员如何共同创作《亲爱的楼上邻居》

元宝派、文心、UC…为什么 BAT 都急着给 AI 拉群？｜甲子光年