全部标签

强化学习

LLM 学习笔记：最好的学习方法是带着问题去寻找答案

本文对 LLM (大型语言模型) 的学习方法进行了探讨，强调带着问题去寻找答案。文章首先分析了大模型聊天过程，从流程和原理两个层面进行了浅析，然后详细介绍了 LLM 的预训练、后训练 (SFT) 和强化学习 (RL) 三个构建步骤，这三个阶段是递进关系，各自作用不同，包括数据集的准备、Tokenization、词汇表构建、数据分片、模型架构选择等关键环节。同时，文章还结合当前主流的应用形式，如文件…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
Andrej Karpathy：AGI 仍需十年，长期挑战犹存

在本次深度访谈中，人工智能专家 Andrej Karpathy 对通用人工智能 (AGI) 即将到来的观点提出质疑，并断言 AGI 仍需十年才能实现。他强调，当前的大语言模型 (LLM) 存在关键的认知缺陷，例如缺乏持续学习能力、多模态交互不足以及计算机交互能力较弱，这些缺陷使其无法胜任复杂的任务。Karpathy 严厉批评强化学习 (RL)，认为其效果“糟糕”，因为它存在稀疏且嘈杂的监督机制。他…
技术落地
- 0
- 0
勇敢牛牛25年12月30日
2.6B参数碾压百亿级巨兽！Liquid AI最新实验性模型LFM2 2.6B Exp发布

圣诞节当天，知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp，这一仅有2.6B（26亿）参数的小型开源模型，在多项关键基准测试中表现出色，尤其在指令跟随能力上超越了参数量高达数百亿的DeepSeek R1-0528，引发业界广泛热议，被誉为“最强3B级模型”。模型背景:纯强化学习驱动的实验突破LFM2-2.6B-Exp基于Liquid AI第二代Liqui…
AI 前线
- 0
- 0
探索X25年12月29日
Kimi 硬刚多模态满血版 o1，首曝训练细节！强化学习 scaling 新范式诞生

Kimi 发布了 k1.5 多模态思考模型，这是继去年 11 月和 12 月发布的 k0-math 和 k1 模型之后的又一次重大升级。k1.5 在数学、代码和多模态推理能力上达到了 OpenAI o1 满血版的水平，成为全球范围内首个在 Long CoT 模式下达到这一水平的非 OpenAI 模型。Kimi 团队通过创新的强化学习 scaling 技术，如长上下文扩展、改进的策略优化、简化框架和…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Kimi k1.5 背后的长长长长长思考

文章作者 Flood Sung 分享了月之暗面在复现 OpenAI o1 模型过程中的思考。起初，团队重视长文本输入（Long Context）而忽略了长思维链（Long-CoT），但最终意识到性能比成本更重要，因此转向 Long-CoT。通过分析 OpenAI 的相关研究和演讲，作者得出结论：模型需要自由思考，不应受结构化方法限制；应采用有精确奖励的强化学习，并允许模型在探索中犯错。文章还探讨了…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
AI 算法开源｜Logics-Parsing：攻克 PDF 复杂文档端到端结构化处理

文章详细介绍了阿里巴巴自主研发并开源的 Logics-Parsing 模型，旨在解决传统 OCR 和现有视觉语言模型在处理复杂 PDF 文档（如多栏排版、图文混排、专业公式、手写字）时存在的理解和阅读顺序不足的问题。Logics-Parsing 基于 Qwen2.5-VL 架构，采用“SFT-then-RL”两阶段训练策略，核心创新在于引入了以布局为中心的强化学习（LC-RL），通过精心挖掘标注的…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
121. 对 DeepMind 谭捷的访谈：机器人、跨本体、世界模型、Gemini Robotics 1.5 和 Google

本期播客深入访谈了 Google DeepMind 高级研究科学家谭捷，聚焦机器人技术的前沿发展。谭捷分享了其从计算机图形学转型机器人研究的经历，强调了强化学习和大语言模型对机器人领域的革命性影响。他指出，大语言模型赋予机器人理解语言和常识的能力，而强化学习则擅长底层运动控制，二者结合构建了机器人的“大脑”与“小脑”。播客详细介绍了 DeepMind 的 Gemini Robotics 1.5 项…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
从 RLHF、PPO 到 GRPO 再训练推理模型，这是你需要的强化学习入门指南｜机器之心

文章作为强化学习入门指南，首先介绍了 RL 在 LLM 中的重要性，并从吃豆人游戏引入 RL 基本概念（环境、agent、动作、奖励）。随后详细讲解了 RLHF、PPO，并着重介绍了 DeepSeek 提出的 GRPO 算法。相较 PPO，GRPO 通过移除价值模型并利用多次采样来计算优势，显著提升了训练效率。文章还提及了 RLVR 以及强化学习中“耐心即所需”的哲学理念。最后，文章结合开源库 U…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
一文读懂｜DeepSeek 新模型大揭秘，为何它能震动全球 AI 圈

本文深入剖析了 DeepSeek 最新发布的开源模型 R1，揭示了其在技术上的重大突破。DeepSeek R1 最核心的创新在于采用纯强化学习方法训练模型，使其自发涌现出强大的推理能力，这与传统依赖监督微调和复杂奖励模型的训练方式截然不同。R1-Zero 模型仅使用简单的准确性和格式奖励，就展现出“顿悟”式学习能力和优秀的跨领域迁移学习能力，在数学和编程竞赛中表现卓越。尽管 R1-Zero 存在可…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
k1.5 新模型登场：Kimi 如何做到满血版多模态 o1 水平（附技术报告）

文章介绍了 Kimi 推出的全新多模态模型 k1.5，该模型在短链思维（short-CoT）和长链思维（long-CoT）模式下均表现出色，尤其在数学、代码和视觉推理任务中大幅领先现有 SOTA 模型如 GPT-4o 和 Claude 3.5 Sonnet。k1.5 的核心优势在于其强化学习框架，包括长上下文扩展、改进的策略优化方法以及简洁高效的训练设计。此外，Kimi 技术团队首次公开了详细的训…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
奖励模型终于迎来预训练新时代！上海 AI Lab、复旦 POLAR，开启 Scaling 新范式｜机器之心

文章详细介绍了上海人工智能实验室与复旦大学联合提出的预训练奖励模型 POLAR，旨在解决大语言模型后训练阶段奖励模型面临的数据成本高、泛化能力差等核心问题。POLAR 创新性地引入“策略判别学习”范式，通过对比学习衡量候选策略与最优策略的“距离”，摆脱对人类绝对偏好的依赖。其训练分为大规模自动化合成数据预训练和少量偏好数据微调两阶段。实验结果表明，POLAR 在偏好评估和强化微调（RFT）应用中均…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
通义 WebSailor 开源，首个挑战 BrowseComp 基准的开源网络智能体！

文章详细介绍了通义实验室最新开源的网络智能体 WebSailor，该智能体在复杂网络检索任务中展现出强大的推理和检索能力，并在高难度评测集 BrowseComp 上取得了开源榜单第一的成绩，甚至超越了部分闭源模型如 DeepSeek R1 和 Grok-3。WebSailor 的核心优势在于其创新的 post-training 方法，包括大规模合成高不确定性复杂任务数据 SailorFog-QA，…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
The Second Half：一位 OpenAI 科学家的 AI 下半场启示录

本文是 OpenAI 科学家姚顺雨对 AI 发展下半场的解读，核心观点是 AI 的发展正从解决问题转向定义问题，Evaluation (模型评估) 会比 Training (模型训练) 更重要。文章回顾了 AI 上半场以算法和模型创新为主的特点，例如 Transformer、AlexNet、GPT-3 等，指出强化学习 (RL) 在实现通用人工智能 (AGI) 中的关键作用，并强调了先验知识 (p…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日