全部标签

混合专家

万亿参数狂欢！一文刷爆 2025 年七大顶流大模型架构

本文对 2025 年顶尖开源大语言模型（LLM）的架构发展进行了深度分析。文章指出，尽管基础的 Transformer 架构自 GPT 问世以来保持了相似性，但在位置编码、注意力机制和激活函数等方面存在细微改进。文章详细探讨了 DeepSeek V3/R1 中引入的多头潜在注意力（MLA）和混合专家模型（MoE），这显著提升了计算效率并扩大了模型容量。Kimi K2 作为万亿参数模型，在 Deep…
AI 前线
- 0
- 0
勇敢牛牛25年12月30日
深夜突袭，阿里 Qwen3 登顶全球开源王座！暴击 DeepSeek-R1，2 小时狂揽 17k 星

文章主要介绍了阿里新开源的通义千问模型 Qwen3，该模型采用了混合专家（MoE）架构，总参数量达 235B，同时创新性地引入了混合推理模式，能够在思考和非思考模式之间无缝切换，从而在各种场景中实现最佳性能。Qwen3 在奥数、代码能力和人类偏好对齐等多个基准测试中表现出色，均创下新的纪录。此外，Qwen3 还原生支持 MCP 协议，并具备强大的工具调用能力，结合 Qwen-Agent 框架，可以…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部