-
Qwen3 小升级即 SOTA,开源大模型王座快变中国内部赛了
文章详细报道了阿里云 Qwen3 大模型最新版本的发布,该版本采用 MoE 架构,总参数量 235B,激活参数 22B,并在基准测试中超越了 Kimi K2 和 DeepSeek-V3。新版 Qwen3 不再采用混合思维模式,而是分别训练 Instruct 和 Thinking 模型,显著提升了通用能力、多语言长尾知识覆盖、用户偏好符合度以及 256K 长上下文理解能力。文章还指出,随着 Llam…- 0
- 0
-
小米突然发布新模型:媲美 DeepSeek-V3.2,把手机的性价比卷到 AI
文章详细介绍了小米最新发布并开源的 MiMo-V2-Flash 大模型。该模型总参数 3090 亿,活跃参数 150 亿,采用 MoE 架构,性能可媲美头部开源模型 DeepSeek-V3.2 和 Kimi-K2。其核心创新包括混合滑动窗口注意力机制,将推理成本降至百万 token 输入 0.1 美元、输出 0.3 美元,推理速度达 150 tokens/秒,并在 256k 长文本处理上表现出色。…- 0
- 0
开源大模型
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
✈优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!


