全部标签

大模型推理

阿里云首发万亿级MoE模型推理超节点：真武M890+Qwen3.8在百炼平台商用落地

阿里云基于平头哥真武M890芯片打造超节点，首发支持2.4万亿参数Qwen3.8模型推理，依托9TB显存与800GB/s互联实现国内首个万亿级MoE模型商用落地，百炼平台已开放服务，推理性能提升达1.5倍。
AI 前线
- 0
- 0
探索X7月23日
大模型如何推理？斯坦福 CS25 重要一课，DeepMind 首席科学家主讲｜机器之心

文章深入解读了 Google DeepMind 首席科学家 Denny Zhou 在斯坦福大学 CS25 课程中对大语言模型推理能力的权威观点。他提出 LLM 推理的关键在于生成一系列中间 token，而非简单地扩展模型规模，这种机制使 Transformer 模型能变得极其强大。文章阐述了预训练模型本身已具备推理能力，但需要通过链式推理解码、提示技巧（如思维链）、监督微调（SFT）以及当前最强大…
AI 前线
- 0
- 0
拼凑梦境25年12月30日
刚刚，DeepSeek-R1 论文登上 Nature 封面，通讯作者梁文锋｜机器之心

文章报道了 DeepSeek-R1 研究登上《Nature》封面，强调了其在利用强化学习提升大语言模型（LLM）推理能力方面的创新。DeepSeek-R1 模型通过群组相对策略优化（GRPO）和精巧的奖励设计，使模型能够自我验证和反思，逐步解决复杂问题，显著提高了在编程和科学问题上的表现。文章特别指出，DeepSeek-R1 是首个通过权威学术期刊同行评审的大语言模型，这一“程序价值”被视为 AI…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日
阶跃星辰发布新一代基模 Step 3，推理效率创行业新高

阶跃星辰在 WAIC 2025 前夕发布了新一代基础大模型 Step 3，旨在成为推理时代最适合应用的模型。该模型是首个全尺寸、原生多模态推理模型，采用 MoE 架构，总参数量 321B，激活参数量 38B，在多个开源多模态推理榜单上取得了 SOTA 成绩。文章强调 Step 3 兼顾性能与极致成本效益，通过系统架构创新显著提升了推理解码效率，尤其在国产芯片上表现优异。此外，阶跃星辰还联合芯片和平…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部