全部标签

模型训练

Kimi k1.5 背后的长长长长长思考

文章作者 Flood Sung 分享了月之暗面在复现 OpenAI o1 模型过程中的思考。起初，团队重视长文本输入（Long Context）而忽略了长思维链（Long-CoT），但最终意识到性能比成本更重要，因此转向 Long-CoT。通过分析 OpenAI 的相关研究和演讲，作者得出结论：模型需要自由思考，不应受结构化方法限制；应采用有精确奖励的强化学习，并允许模型在探索中犯错。文章还探讨了…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Sebastian Raschka：关于 DeepSeek R1 和推理模型，我有几点看法

本文由著名 AI 研究者 Sebastian Raschka 撰写，全面解析了构建和改进推理模型的四种主要方法，包括推理时间扩展、纯强化学习 (RL)、监督微调加强化学习 (SFT + RL) 以及纯监督微调 (SFT) 和蒸馏。文章以 DeepSeek R1 为例，详细分析了其训练流程、开源特性和效率优势，并对比了不同方法的优劣。此外，文章还讨论了在有限预算下开发推理模型的可能性，介绍了 Sky…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
从 RLHF、PPO 到 GRPO 再训练推理模型，这是你需要的强化学习入门指南｜机器之心

文章作为强化学习入门指南，首先介绍了 RL 在 LLM 中的重要性，并从吃豆人游戏引入 RL 基本概念（环境、agent、动作、奖励）。随后详细讲解了 RLHF、PPO，并着重介绍了 DeepSeek 提出的 GRPO 算法。相较 PPO，GRPO 通过移除价值模型并利用多次采样来计算优势，显著提升了训练效率。文章还提及了 RLVR 以及强化学习中“耐心即所需”的哲学理念。最后，文章结合开源库 U…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
每个程序员都必须了解的 AI 系统设计与挑战

文章为传统后台工程师深入理解 AI 系统设计提供了全面视角。首先，从硬件演进入手，阐述了 AI Infra 从 CPU 为中心向 GPU 为中心转变，以及从“去 IOE”到“AI 大型机”的趋势，强调了 GPU 在处理高吞吐浮点计算中的核心地位。其次，文章介绍了 AI 软件层面的 PyTorch 深度学习框架作为事实标准，并探讨了 GPU 编程（如 Triton）和 Python 编程的重要性。接…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部