文章深入分析了 DeepSeek R1 团队更新其原始论文的意义,从 v1 的 22 页扩写到 v2 的 86 页,认为这标志着团队从简单的“现象公布”转向了对“大模型推理如何学会”这一核心工程问题的系统性解答。v1 证明了模型在无人类示范下可自发产生复杂推理,而 v2 则将 R1 的训练过程拆解为清晰的多阶段路径,详细阐述了推理的冷启动、强化、修复和泛化过程,并首次明确承认了过度推理、token 效率低等长期挑战,而非回避。作者指出,此次更新不仅仅是论文页数的增加,更是 DeepSeek 团队致力于将“推理”从一个被反复引用的现象,提升为可被系统性讨论和工程化解决的问题的转变,对于整个 AI 领域理解和复现大模型推理能力具有重要的指导价值。
就在前几天,DeepSeek 团队更新了 R1 的原始论文:
从 22 页的 v1 版,直接扩写到 86 页的 v2 版。

这不是一次常规意义上的“补实验”“改措辞”。页数翻了近 4 倍,结构几乎重做,很多在 v1 中一笔带过的内容,被完整拆开、重新组织。你能明显感觉到:他们不是在修一篇论文,而是在把 v1 那个被行业反复引用、却始终说不清楚的核心问题,重新摊开来讲一遍——
大模型的推理,到底是怎么学会的?
v1:22 页写清了“现象”,但也留下了一堆问号
回到 v1,当时最引爆讨论的,并不是某个 benchmark 分数,而是一个非常反直觉的现象:在几乎不依赖人类示范(CoT)的情况下,模型在纯强化学习中,自发产生了长链推理、反思和自校验行为。这件事为什么重要?因为它直接挑战了一个长期默认的行业前提:
想要推理强,就必须先有人类把“怎么想”一步步示范给模型。
v1 用 22 页告诉你:不一定。但问题也恰恰出在这里。v1 更像是一次“现象公布”,而不是一套可复现的方法说明:
-
推理为什么会出现?是奖励信号驱动,还是模型规模效应?
-
为什么会出现语言混杂、可读性差的问题?
-
冷启动 SFT 一加,为什么推理强度反而会下降?
-
如果别人想复现这条路线,训练流程到底该怎么拆?
这些问题,在 v1 里几乎没有展开。而 v2 的 86 页,基本就是在逐条回答这些问号。
v2:不是堆内容,而是把“推理训练流程”完整写出来
v2 最重要的变化,不在结果,而在结构。DeepSeek 在这版论文里,第一次把 R1 的训练过程拆成了一条清晰的多阶段路径,而不是只给你起点和终点:
-
R1-Zero:纯 RL,验证推理行为是否会出现
-
Dev1:引入冷启动,修复可读性与表达问题
-
Dev2:重新强化推理,找回被削弱的推理能力
-
Dev3:混合推理与非推理数据,补齐泛化能力
-
最终 R1:在全场景下做强化与对齐
这一步的意义非常关键。它把原本“像经验总结一样”的训练过程,变成了一条可以被复现、被质疑、被改进的工程路线。更重要的是,v2 并没有刻意掩盖阶段间的性能波动。哪些阶段会退步、为什么退步、退步是不是必须付出的代价,都被明确写进了正文。
一个明显转向:他们开始关心“推理能不能被用”
v1 的关注点非常单一:推理能不能出现、能不能拉长。
而 v2 的关注点明显发生了变化:这种推理,能不能被系统接受?
这也是为什么 v2 在奖励和数据层面写得异常细:规则奖励仍然是推理正确性的核心约束,但同时引入了偏好奖励和安全奖励,专门处理语言一致性、输出风格和安全边界。这背后其实是一个很现实的判断:
会推理不等于好用,甚至可能“想太多”。
v2 不再回避过度推理、token 效率偏低等问题,而是明确承认:这些是这条路线的长期挑战,而不是可以一笔带过的副作用。这里刚好可以参考:Yuan3.0 Flash 全新开源:直面大模型过度反思问题
实验写法的变化,本身就是一种态度
如果你仔细对比 v1 和 v2 的实验部分,会发现一个明显差异:
-
v1 更像是在展示“我们跑出来了什么”
-
v2 则在反复解释“为什么会这样变化”
例如,v2 明确指出:推理强化对偏好类任务的提升是有限的,并不是所有任务都需要长推理,过度推理本身可能成为系统负担,这些内容并不会让论文“更好看”,但它们让这条路线更真实,也更可继续推进。
这次“爆更”,DeepSeek 真正在做什么?
把 v1 到 v2 连在一起看,会发现 DeepSeek 真正在做的,并不只是把论文写长。
v1 是一次爆点式证明:
模型可以在没有人类示范的情况下,学会复杂推理行为。
v2 则是一种克制而认真的回应:
如果这件事是真的,那我们需要把它拆解清楚,而不是只展示结果。
86 页,并不是为了“显得很 Open”,而是为了把“推理”从一个被反复引用的现象,变成一件可以被系统性讨论的工程问题。
小结:v1 是“发现”,v2 是“讲清楚”
如果一定要一句话总结这次从 v1 到 v2 的变化:
v1 让人意识到推理可以“长出来”,而 v2 则第一次认真回答:这种推理,究竟是怎么被训练、修复和对齐的。
也正是在这个意义上,这次论文的“爆更”并不是结束,而更像是 DeepSeek 对外释放的一个信号:他们不是只想跑出一个结果,而是真的想把“推理”这件事讲清楚。
附该论文英中对照版,仅供学习参考,感兴趣的朋友可以关注AINLP公众号回复'deepseekr1'获取该技术报告英中对照版pdf全文:






感兴趣的朋友可以关注AINLP公众号回复'deepseekr1'获取该技术报告英中对照版pdf全文

