全部标签

GRPO算

从 RLHF、PPO 到 GRPO 再训练推理模型，这是你需要的强化学习入门指南｜机器之心

文章作为强化学习入门指南，首先介绍了 RL 在 LLM 中的重要性，并从吃豆人游戏引入 RL 基本概念（环境、agent、动作、奖励）。随后详细讲解了 RLHF、PPO，并着重介绍了 DeepSeek 提出的 GRPO 算法。相较 PPO，GRPO 通过移除价值模型并利用多次采样来计算优势，显著提升了训练效率。文章还提及了 RLVR 以及强化学习中“耐心即所需”的哲学理念。最后，文章结合开源库 U…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
万字长文详解 DeepSeek 核心技术

本文详细介绍了 DeepSeek 系列模型的技术创新，包括 DeepSeek MoE 架构的细粒度专家划分、共享专家分离，以及为解决负载不均衡问题而提出的负载均衡策略。深入解析了 GRPO 算法相对于 PPO 的改进，通过减少 Value 模型来降低计算资源消耗。阐述了 MLA 如何通过低秩分解减少 KV Cache，降低推理成本。介绍了 MTP 如何通过一次性预测多个 token 来提升训练效率…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部