-
奖励模型终于迎来预训练新时代!上海 AI Lab、复旦 POLAR,开启 Scaling 新范式 | 机器之心
文章详细介绍了上海人工智能实验室与复旦大学联合提出的预训练奖励模型 POLAR,旨在解决大语言模型后训练阶段奖励模型面临的数据成本高、泛化能力差等核心问题。POLAR 创新性地引入“策略判别学习”范式,通过对比学习衡量候选策略与最优策略的“距离”,摆脱对人类绝对偏好的依赖。其训练分为大规模自动化合成数据预训练和少量偏好数据微调两阶段。实验结果表明,POLAR 在偏好评估和强化微调(RFT)应用中均…- 0
- 0
奖励模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

