-
实测!Qwen 下一代基础架构突袭!秒解 AIME 数学竞赛题,提速 10 倍+性价比提升 10 倍
文章详细介绍了阿里通义千问团队发布的 Qwen3-Next 模型架构,作为 Qwen3.5 的抢先预览版,其核心目标是大幅提升模型性价比和性能。Qwen3-Next-80B-A3B-Base 模型在训练成本上仅为前代的十分之一,长上下文推理吞吐量提升十倍以上。技术创新包括混合注意力机制(引入 Gated DeltaNet)、高稀疏度 MoE 结构、稳定性优化(Zero-Centered RMSNo…- 0
- 0
-
王兴一鸣惊人!美团首个开源大模型追平 DeepSeek-V3.1
文章详细介绍了美团首个开源大模型 Longcat-Flash-Chat 的发布及其卓越性能。该模型是一个 560B 的 MoE 模型,在 Agent 工具调用、指令遵循和编程能力等多个基准测试中表现出色,部分超越了 DeepSeek-V3.1 和 Qwen3 MoE-2507,甚至与闭源的 Claude4 Sonnet 不相上下。相较于 DeepSeek-V3.1(671B/A37B)和 Kimi…- 0
- 0
AI性能
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


