文章深入探讨了大模型强化学习(RLVR)中核心算法 GRPO 的内在统计缺陷。研究指出,目前广泛采用的组内相对优势估计(Group-relative Advantage)并非无偏估计,而是存在明确的方向性偏差:在统计意义上,困难题目的优势被系统性低估,而简单题目的优势被高估。这种偏差会导致模型在训练中倾向于回避挑战性任务,转而过度强化简单样本,从而破坏探索平衡并影响泛化能力。为此,北航、北大等机构的研究团队提出了 HA-DW 算法,通过引入历史平均奖励作为动态锚点来校正优势估计,实验证明该方法能显著提升模型在困难推理任务上的表现。
2026-01-30 16:46 北京

LLM强化学习正在从「工程上能跑出效果就行」,回到「估计是不是准确」的根本问题和可解释性。

近年来,大模型在数学推理、代码生成等任务上的突破,背后一个关键技术是 RLVR(Reinforcement Learning with Verifiable Rewards)。
简单来说,RLVR 不是让模型「听人打分」,而是让模型自己尝试多种解法,然后用可验证的规则(如答案是否正确)来反向改进自己。这使得模型能够通过反复试错不断变强,被广泛应用于当前最先进的推理模型中。
在实际训练中,为了让学习过程更稳定、避免引入额外的价值网络,许多 RLVR 方法(如 GRPO)都会对同一个问题生成一组回答,并在组内进行相对比较。模型不是直接看「这个回答好不好」,而是看「它在这一组回答中相对好不好」,这就是所谓的组内优势估计(group-relative advantage),也是目前几乎所有 group-based 强化学习方法的核心设计。优势估计并不仅仅是一个「评估指标」,而是直接决定策略梯度更新方向的核心信号。
然而,一个长期被忽视的关键问题在于:组内优势估计并不像人们通常直觉认为的那样是「近似无偏」的。
相反,北航、北大、UCB、美团最新的工作揭示了,这种组内优势估计在统计意义上存在明确且系统性的方向性偏差:困难题的优势会被持续低估,而简单题的优势则被不断高估。

这一偏差带来的后果往往十分隐蔽,却极具破坏性。训练过程中,曲线表面上看似「稳定收敛」,但模型实际上正在逐渐回避困难问题、转而偏好简单样本。随着训练的推进,探索与利用之间的平衡被悄然打破,模型的泛化能力与长期训练稳定性也随之下降。
更关键的是,这并非一个可以通过简单调整超参数来缓解的问题,而是组内优势估计这一设计在统计结构层面本身就存在的内在缺陷。
定义
接下来,我们先引入若干必要的定义,以便于清晰表述后续的核心发现。我们首先给出最常用的组内相对优势估计的数学定义。
组内相对优势估计(Group-relative Advantage) :
在一个训练回合
,对于一个给定的提示(prompt)
,算法从当前策略
中独立采样 G 个响应,并获得对应的 G 个奖励
。随后,将组内的平均奖励
作为 baseline :

并据此计算每个响应的组内相对优势估计
:

为便于阐述理论结论,下文中我们忽略标准化项。为了分析组内优势估计的统计性质,我们需要引入策略在给定提示下的真实期望表现和优势,并将其作为后续讨论的参照基准。
期望奖励:
在 RLVR 设定下,考虑一个给定的提示
, 在 0–1 奖励假设下,我们将策略
在该提示上
的期望奖励定义为

由此构造的组内平均奖励
,可被视为
的一个有限样本经验估计。
期望优势:
基于此,对于每一个响应
和其奖励
,其真实(期望)优势定义为

在 RLVR 中,
表示响应
在真实期望意义下的优势,而
则是通过有限组内采样得到的优势经验估计量。
为了刻画不同提示在训练中所处的难易程度,并分析偏差在不同难度区域的行为差异,我们引入如下基于期望奖励的题目难度定义。
题目难度:
在这里,我们首先给出题目难度定义,即给一个
, 如果
小于 0.5,我们认为他是难题。相反,如果
大于 0.5,我们认为它是一道简单题。
最后,在基于组的策略优化方法中,并非所有采样组都会对参数更新产生有效贡献。为聚焦于真正驱动学习的情形,我们需要显式排除那些导致梯度消失的退化情况。
非退化梯度事件:
R 表示奖励总和:

则组内优势估计也可以表示为
。在基于组的策略优化方法中,当某一提示
的 G 个采样响应全部错误(R=0)或全部正确(R=G)时,组内相对优势满足:

从而导致梯度消失,参数不发生更新。实践中,这类退化组不提供有效学习信号,通常被 GRPO 及其变体显式或隐式地忽略。因此,我们将分析聚焦于实际驱动学习的有效更新区间,即至少存在一个非零优势的情形。形式化地,定义非退化事件:

对 S 进行条件化并不会改变优化目标或训练轨迹,而仅刻画那些真正参与参数更新的样本子集,使我们能够精确分析组相对优势估计中的系统性偏差。
核心发现
重要发现 1:

定理 1 揭示了组相对优势估计的一个根本性质。在非退化事件 S 条件下,基于组的优势估计
, 对不同难度的提示表现出系统性偏差:
-
对于困难提示(
<0.5),其期望值系统性低于真实优势
(即其真实优势被低估)。 -
对于简单提示(
>0.5$$),其期望值系统性高于真实优势
(即其真实优势被高估)。 -
仅当
=0.5,组相对优势估计才是无偏的。
这一结论表明,组相对优势的偏差并非由有限采样噪声引起,而是源自其相对优势估计机制本身,且与提示难度密切相关。

同时,我们对这种优势估计偏差进行了系统性的可视化分析。如图所示,在非退化事件 S 条件下,组相对优势估计的偏差
,随提示难度呈现出明显的结构性变化 :
-
当
偏离 0.5 越远(即提示越困难或越简单)时,优势估计的偏差越大。
在相同的提示难度下,G 越小,优势估计偏差越大;随着 G 的增加,偏差虽有所缓解,但在有限采样范围内仍然不可忽略。
举例 1:
假设一个非常难的问题,模型原本做对的概率只有 1%(
=0.01)。如果你采样了 8 次,按照 1% 的这个概率来做的话原本模型大概率是全错的,这些数据会被丢弃,不产生梯度。但是一旦这 8 个回答里面至少有 1 个问题做对了,这个时候组内的 Baseline
就会瞬间被拉高到至少 0.125 参加梯度更新,和原本
=0.01 差距非常大。这导致计算出的优势估计就会变小
≤ 0.875,与真实的优势
=0.99 产生巨大偏差,即优势被显著低估。
举例 2:

该图展示了在 MATH 数据集上,对于同一道困难题目,组相对优势估计在不同回答采样数量下的表现差异。当采用 8 次采样时,对正确回答所计算得到的优势为 A=2.65;而当采样数量提升至 128 次时,所估计的优势增大至 A=3.64,更接近其真实优势值。
重要发现 2:

为此,进一步给出了优势估计偏差的概率化刻画。如推论 1 所示,在实际常用的组大小范围 G = 8 时,组相对优势估计以较高概率对不同难度的提示产生系统性偏差:对于困难提示(
<0.5),其优势被低估的概率超过 0.63;对于简单提示(
>0.5),其优势被高估的概率同样超过 0.63。当提示难度进一步加剧扩大时,这一概率上界进一步提升至 0.78 甚至 100%,表明偏差随难度加深而显著放大。
论文也提供具体偏差量估计:

总结
综上所述,组相对优势估计(Group-relative Advantage)在理论上除
= 0.5 外均是有偏的。因为 GRPO/Group-based PO 会优势估计机制会强制将样本限制在子集 S 上,相当于对原来的样本全集进行了加权,即加权之后的优势估计是有偏的。
具体而言,该估计方法会对困难提示系统性地低估真实优势,而对简单提示系统性地高估真实优势。进一步地,对于极其困难的提示,优势估计必然被低估;而对于极其简单的提示,则必然被高估。
尽管上述分析主要基于 0–1 二值奖励的设定,该假设覆盖了大量 RLVR 场景,尤其是依赖硬判别 verifier 的推理任务,但真实应用中的奖励信号往往更加一般。
为此,论文在附录 D.5 中将分析推广至连续且有界的奖励分布。
结果表明,组相对优势估计中的核心偏差现象并非 Bernoulli 奖励假设的偶然产物,而是在更广泛的有界奖励模型中同样普遍存在。
这个发现告诉我们什么
该发现对 RLVR 训练具有直接而深远的影响。
具体而言,组相对优势估计的系统性偏差会导致不同难度提示在学习过程中受到不平衡的梯度信号:对于困难提示,其真实优势被低估,从而产生较小的梯度更新,导致学习进展缓慢;而对于简单提示,其优势被高估,模型则容易对其过度强化。最终,这种不对称的优势估计会抑制有效探索,使训练过程偏向于反复强化简单样本,而忽视真正具有挑战性的提示。
基于上述分析,我们认为优势估计应当根据提示难度进行自适应调整:对于困难提示,应适当放大其估计优势以鼓励探索;而对于简单提示,则应抑制其优势以防止过度利用。
为在实践中判定提示难度,论文提出算法 HA-DW,引入短期历史平均奖励作为动态锚点,将新提示与该锚点进行对比,从而判断其相对难度,并据此对优势估计进行自适应重加权。

该图展示了在对组相对优势估计进行校正之后,不同难度提示上的性能变化。可以观察到,引入优势校正机制后(GRPO+HA-DW),模型在困难提示(Hard)上的性能提升最为显著,相比原始 GRPO 提升了 3.4%。
GRPO/Group-based PO 的问题不只是 variance,而是 bias。这项工作也释放了一个很强的信号:LLM 强化学习正在从「工程上能跑出效果就行」,回到「估计是不是准确」的根本问题和可解释性。以后 RLVR 里,bias analysis /estimator correctness 很可能会成为标配。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com

