-
Step-3 发布:包括发布会上没说的,都在这了
文章深入解读了最新发布的 Step-3 多模态推理模型,该模型定位为“最强开源多模态推理模型”。其核心亮点在于采用 MoE 架构(321B 总参,38B 激活)并实现了 Sota 级别的性能,尤其在 MMMU 和 AIME2025 榜单上表现突出。文章详细阐述了 Step-3 通过 AFD 分布式推理系统和 MFA 注意力机制两大核心创新,显著降低了推理成本,实现了在国产芯片上高达 DeepSee…- 0
- 0
-
美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
文章介绍了美团最新发布并开源的 LongCat-Flash-Chat 大模型。该模型采用创新的混合专家(MoE)架构,总参数 560B,每个 Token 动态激活少量参数(平均 27B),实现了计算效率与性能的双重优化。文章详细阐述了其“零计算专家”机制、跨层通道并行计算、训练稳定性策略等技术亮点。性能评估显示,LongCat-Flash-Chat 在通用知识(如 MMLU、CEval)、智能体任…- 0
- 0
-
全新 MoE 架构!阿里开源 Qwen3-Next,训练成本直降 9 成 | 机器之心
文章详细介绍了阿里通义团队开源的下一代大语言模型架构 Qwen3-Next。该模型总参数 80B,但仅激活 3B 参数,实现了训练成本直降 9 成、推理吞吐提升 10 倍以上的突破。其核心创新包括:结合 Gated DeltaNet 和 Gated Attention 的混合注意力机制,旨在优化长上下文处理;采用 512 个专家、10 个路由专家和 1 个共享专家的极致稀疏 MoE 结构,仅激活 …- 0
- 0
-
Qwen3 重磅开源!
文章主要介绍了 Qwen 系列全新一代的混合推理模型 Qwen3 的开源信息。Qwen3 在 GPQA、AIME24/25、LiveCodeBench 等多个权威评测中表现出极具竞争力的结果。通过引入创新的 MOE (混合专家) 架构,Qwen3 在效果上媲美上一代超大规模 Dense 模型的同时,效率显著提升,降低了计算成本。Qwen3 融合了推理与非推理能力,在逻辑分析和创意生成等任务中表现卓…- 0
- 0
MOE架构
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!




