-
Kimi k1.5 背后的长长长长长思考
文章作者 Flood Sung 分享了月之暗面在复现 OpenAI o1 模型过程中的思考。起初,团队重视长文本输入(Long Context)而忽略了长思维链(Long-CoT),但最终意识到性能比成本更重要,因此转向 Long-CoT。通过分析 OpenAI 的相关研究和演讲,作者得出结论:模型需要自由思考,不应受结构化方法限制;应采用有精确奖励的强化学习,并允许模型在探索中犯错。文章还探讨了…- 0
- 0
-
Sebastian Raschka:关于 DeepSeek R1 和推理模型,我有几点看法
本文由著名 AI 研究者 Sebastian Raschka 撰写,全面解析了构建和改进推理模型的四种主要方法,包括推理时间扩展、纯强化学习 (RL)、监督微调加强化学习 (SFT + RL) 以及纯监督微调 (SFT) 和蒸馏。文章以 DeepSeek R1 为例,详细分析了其训练流程、开源特性和效率优势,并对比了不同方法的优劣。此外,文章还讨论了在有限预算下开发推理模型的可能性,介绍了 Sky…- 0
- 0
-
从 RLHF、PPO 到 GRPO 再训练推理模型,这是你需要的强化学习入门指南 | 机器之心
文章作为强化学习入门指南,首先介绍了 RL 在 LLM 中的重要性,并从吃豆人游戏引入 RL 基本概念(环境、agent、动作、奖励)。随后详细讲解了 RLHF、PPO,并着重介绍了 DeepSeek 提出的 GRPO 算法。相较 PPO,GRPO 通过移除价值模型并利用多次采样来计算优势,显著提升了训练效率。文章还提及了 RLVR 以及强化学习中“耐心即所需”的哲学理念。最后,文章结合开源库 U…- 0
- 0
-
每个程序员都必须了解的 AI 系统设计与挑战
文章为传统后台工程师深入理解 AI 系统设计提供了全面视角。首先,从硬件演进入手,阐述了 AI Infra 从 CPU 为中心向 GPU 为中心转变,以及从“去 IOE”到“AI 大型机”的趋势,强调了 GPU 在处理高吞吐浮点计算中的核心地位。其次,文章介绍了 AI 软件层面的 PyTorch 深度学习框架作为事实标准,并探讨了 GPU 编程(如 Triton)和 Python 编程的重要性。接…- 0
- 0
模型训练
❯
个人中心
购物车
优惠劵
今日签到
有新私信
私信列表
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!




