-
【生成式人工智慧與機器學習導論 2025】第 7 講:大型語言模型的學習歷程
本课程深入探讨了 ChatGPT 和 Gemini 等 LLM 背后的三阶段学习范式:预训练、监督微调(SFT)和基于人类反馈的强化学习(RLHF)。文章通过“学龄前、上学、进入社会”的生动类比,清晰阐释了每个阶段在模型能力演进中的作用。预训练阶段通过海量自监督数据奠定语言与世界知识基础,强调算力、模型大小与数据质量的权衡(如 Chinchilla 定律),并探讨了数据瓶颈和模型并非死记硬背的特性…- 0
- 0
-
奖励模型终于迎来预训练新时代!上海 AI Lab、复旦 POLAR,开启 Scaling 新范式 | 机器之心
文章详细介绍了上海人工智能实验室与复旦大学联合提出的预训练奖励模型 POLAR,旨在解决大语言模型后训练阶段奖励模型面临的数据成本高、泛化能力差等核心问题。POLAR 创新性地引入“策略判别学习”范式,通过对比学习衡量候选策略与最优策略的“距离”,摆脱对人类绝对偏好的依赖。其训练分为大规模自动化合成数据预训练和少量偏好数据微调两阶段。实验结果表明,POLAR 在偏好评估和强化微调(RFT)应用中均…- 0
- 0
-
75%预训练数据都能删!Jeff Dean 新作:全自动筛除低质量数据
文章介绍了 Google DeepMind 提出的 DataRater 框架,旨在通过自动化方式评估并筛选预训练数据质量。针对大模型训练中数据质量参差不齐导致效率低下和性能受限的问题,DataRater 采用元学习和元梯度优化,学习识别数据对训练目标的价值。实验证明,DataRater 能有效减少训练计算量(在低质量数据集 Pile 上可移除高达 75%数据并节省 46.6%净计算),提升模型性能…- 0
- 0
预训练
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



