-
LLM 学习笔记:最好的学习方法是带着问题去寻找答案
本文对 LLM (大型语言模型) 的学习方法进行了探讨,强调带着问题去寻找答案。文章首先分析了大模型聊天过程,从流程和原理两个层面进行了浅析,然后详细介绍了 LLM 的预训练、后训练 (SFT) 和强化学习 (RL) 三个构建步骤,这三个阶段是递进关系,各自作用不同,包括数据集的准备、Tokenization、词汇表构建、数据分片、模型架构选择等关键环节。同时,文章还结合当前主流的应用形式,如文件…- 0
- 0
-
Andrej Karpathy:AGI 仍需十年,长期挑战犹存
在本次深度访谈中,人工智能专家 Andrej Karpathy 对通用人工智能 (AGI) 即将到来的观点提出质疑,并断言 AGI 仍需十年才能实现。他强调,当前的大语言模型 (LLM) 存在关键的认知缺陷,例如缺乏持续学习能力、多模态交互不足以及计算机交互能力较弱,这些缺陷使其无法胜任复杂的任务。Karpathy 严厉批评强化学习 (RL),认为其效果“糟糕”,因为它存在稀疏且嘈杂的监督机制。他…- 0
- 0
-
2.6B参数碾压百亿级巨兽!Liquid AI最新实验性模型LFM2 2.6B Exp发布
圣诞节当天,知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp,这一仅有2.6B(26亿)参数的小型开源模型,在多项关键基准测试中表现出色,尤其在指令跟随能力上超越了参数量高达数百亿的DeepSeek R1-0528,引发业界广泛热议,被誉为“最强3B级模型”。模型背景:纯强化学习驱动的实验突破LFM2-2.6B-Exp基于Liquid AI第二代Liqui…- 0
- 0
-
k1.5 新模型登场:Kimi 如何做到满血版多模态 o1 水平(附技术报告)
文章介绍了 Kimi 推出的全新多模态模型 k1.5,该模型在短链思维(short-CoT)和长链思维(long-CoT)模式下均表现出色,尤其在数学、代码和视觉推理任务中大幅领先现有 SOTA 模型如 GPT-4o 和 Claude 3.5 Sonnet。k1.5 的核心优势在于其强化学习框架,包括长上下文扩展、改进的策略优化方法以及简洁高效的训练设计。此外,Kimi 技术团队首次公开了详细的训…- 0
- 0
-
奖励模型终于迎来预训练新时代!上海 AI Lab、复旦 POLAR,开启 Scaling 新范式 | 机器之心
文章详细介绍了上海人工智能实验室与复旦大学联合提出的预训练奖励模型 POLAR,旨在解决大语言模型后训练阶段奖励模型面临的数据成本高、泛化能力差等核心问题。POLAR 创新性地引入“策略判别学习”范式,通过对比学习衡量候选策略与最优策略的“距离”,摆脱对人类绝对偏好的依赖。其训练分为大规模自动化合成数据预训练和少量偏好数据微调两阶段。实验结果表明,POLAR 在偏好评估和强化微调(RFT)应用中均…- 0
- 0
-
通义 WebSailor 开源,首个挑战 BrowseComp 基准的开源网络智能体!
文章详细介绍了通义实验室最新开源的网络智能体 WebSailor,该智能体在复杂网络检索任务中展现出强大的推理和检索能力,并在高难度评测集 BrowseComp 上取得了开源榜单第一的成绩,甚至超越了部分闭源模型如 DeepSeek R1 和 Grok-3。WebSailor 的核心优势在于其创新的 post-training 方法,包括大规模合成高不确定性复杂任务数据 SailorFog-QA,…- 0
- 0
-
The Second Half:一位 OpenAI 科学家的 AI 下半场启示录
本文是 OpenAI 科学家姚顺雨对 AI 发展下半场的解读,核心观点是 AI 的发展正从解决问题转向定义问题,Evaluation (模型评估) 会比 Training (模型训练) 更重要。文章回顾了 AI 上半场以算法和模型创新为主的特点,例如 Transformer、AlexNet、GPT-3 等,指出强化学习 (RL) 在实现通用人工智能 (AGI) 中的关键作用,并强调了先验知识 (p…- 0
- 0
强化学习
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!





