-
102. 和张祥雨聊,多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”
本期播客由李广密对话阶跃星辰首席科学家张祥雨,深度剖析多模态人工智能的十年发展与未来趋势。张祥雨分享了个人在深度学习、模型 scaling 等方面的学术经历,并着重探讨了当前大型语言模型(LLM)在训练中遇到的“怪现象”:通用能力增强的同时,推理(特别是数学)能力反而可能下降。他分析了这与 Next Token Prediction 范式的本质缺陷相关,并介绍了 O 系列模型如何通过引入思维链(C…- 0
- 0
-
HuggingFace 发布超 200 页「实战指南」,从决策到落地「手把手」教你训练大模型
文章深入介绍了 HuggingFace 发布的超 200 页「实战指南」,旨在帮助读者从决策到落地,手把手训练大语言模型。该指南基于 HuggingFace 团队使用 384 块 H100 GPU 训练 3B 参数模型 SmolLM3 的实际经验,坦诚记录了 LLM 开发过程中哪些方法有效、哪些会失败,以及如何应对实际工程中的陷阱。文章概述了指南的六大核心部分:训练决策(Why→What→How)…- 0
- 0
-
入局 AI Infra:程序员必须了解的 AI 系统设计与挑战知识
本文系统性地探讨了 AI 基础设施(AI Infra)与传统基础设施(Traditional Infra)的区别与联系,旨在帮助程序员将现有技术栈和方法论复用到 AI 系统设计中。文章从硬件演进入手,阐述了从 CPU 为中心向 GPU 为中心、以及从“去 IOE”到“AI 大型机”的范式转变。接着,详细介绍了深度学习框架 PyTorch 的优势、GPU 编程(Triton)和 Python 在 A…- 0
- 0
-
Anthropic 预训练负责人教你如何训练大语言模型
本视频由 Ankit Gupta (Y Combinator) 采访了 Nick Joseph (Anthropic 的预训练负责人),探讨了训练 Claude 等先进人工智能模型的工程复杂性。Joseph 分享了他从 Vicarious 到 OpenAI 再到 Anthropic 的职业生涯,并阐述了他对人工智能安全认识的转变。对话深入探讨了预训练的核心原则,强调“下一个词预测”和经验性的“规模…- 0
- 0
大模型训练
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



