全部标签

大模型训练

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”

本期播客由李广密对话阶跃星辰首席科学家张祥雨，深度剖析多模态人工智能的十年发展与未来趋势。张祥雨分享了个人在深度学习、模型 scaling 等方面的学术经历，并着重探讨了当前大型语言模型（LLM）在训练中遇到的“怪现象”：通用能力增强的同时，推理（特别是数学）能力反而可能下降。他分析了这与 Next Token Prediction 范式的本质缺陷相关，并介绍了 O 系列模型如何通过引入思维链（C…
AI 前线
- 0
- 0
勇敢牛牛25年12月31日
HuggingFace 发布超 200 页「实战指南」，从决策到落地「手把手」教你训练大模型

文章深入介绍了 HuggingFace 发布的超 200 页「实战指南」，旨在帮助读者从决策到落地，手把手训练大语言模型。该指南基于 HuggingFace 团队使用 384 块 H100 GPU 训练 3B 参数模型 SmolLM3 的实际经验，坦诚记录了 LLM 开发过程中哪些方法有效、哪些会失败，以及如何应对实际工程中的陷阱。文章概述了指南的六大核心部分：训练决策（Why→What→How）…
AI 前线
- 0
- 0
泪满春衫袖25年12月28日
入局 AI Infra：程序员必须了解的 AI 系统设计与挑战知识

本文系统性地探讨了 AI 基础设施（AI Infra）与传统基础设施（Traditional Infra）的区别与联系，旨在帮助程序员将现有技术栈和方法论复用到 AI 系统设计中。文章从硬件演进入手，阐述了从 CPU 为中心向 GPU 为中心、以及从“去 IOE”到“AI 大型机”的范式转变。接着，详细介绍了深度学习框架 PyTorch 的优势、GPU 编程（Triton）和 Python 在 A…
AI 前线
- 0
- 0
勇敢牛牛25年12月27日
DeepSeek-V3 是怎么训练的｜深度拆解

DeepSeek-V3 是一款高性能、低成本的开源大模型，在多项基准测试中表现优异，特别是在高级数学推理能力上大幅超越其他模型。其架构创新包括 Multi-head Latent Attention、DeepSeekMoE 和无额外损耗的负载均衡策略，显著提升了模型性能和效率。通过 DualPipe 流水线并行、通信优化、内存管理和 FP8 低精度训练等工程优化，DeepSeek-V3 显著提升了…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
Anthropic 预训练负责人教你如何训练大语言模型

本视频由 Ankit Gupta (Y Combinator) 采访了 Nick Joseph (Anthropic 的预训练负责人)，探讨了训练 Claude 等先进人工智能模型的工程复杂性。Joseph 分享了他从 Vicarious 到 OpenAI 再到 Anthropic 的职业生涯，并阐述了他对人工智能安全认识的转变。对话深入探讨了预训练的核心原则，强调“下一个词预测”和经验性的“规模…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部

{{userData.name}}已认证

大模型训练

102. 和张祥雨聊，多模态研究的挣扎史和未来两年的 2 个“GPT-4 时刻”

HuggingFace 发布超 200 页「实战指南」，从决策到落地「手把手」教你训练大模型

入局 AI Infra：程序员必须了解的 AI 系统设计与挑战知识

DeepSeek-V3 是怎么训练的｜深度拆解

Anthropic 预训练负责人教你如何训练大语言模型