全部标签

注意力机制

万亿参数狂欢！一文刷爆 2025 年七大顶流大模型架构

本文对 2025 年顶尖开源大语言模型（LLM）的架构发展进行了深度分析。文章指出，尽管基础的 Transformer 架构自 GPT 问世以来保持了相似性，但在位置编码、注意力机制和激活函数等方面存在细微改进。文章详细探讨了 DeepSeek V3/R1 中引入的多头潜在注意力（MLA）和混合专家模型（MoE），这显著提升了计算效率并扩大了模型容量。Kimi K2 作为万亿参数模型，在 Deep…
AI 前线
- 0
- 0
勇敢牛牛25年12月30日
下一代 Attention 算法改进的猜想

文章通过对 MIT 在读博士杨松琳的深度访谈，系统剖析了大型语言模型（LLM）中 Attention 机制的算法与架构创新。在当前高质量数据获取难度增大和算力相对受限的背景下，算法创新被认为是驱动 AI 发展的关键。访谈详细介绍了 Attention 机制从传统 Softmax Attention 到线性注意力（Linear Attention）、稀疏注意力（Sparse Attention）以及…
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
MiniMax 和 Kimi 为了“注意力”，隔空交手

文章详细探讨了中国两大 AI 公司 MiniMax 和月之暗面 Kimi 在大模型注意力机制上的技术路线分歧与竞争。MiniMax M2 选择回归 Full Attention，并坦诚解释了放弃 Efficient Attention（如 Linear/Sparse Attention）的原因，主要集中在工程链路复杂性、评测体系局限和基础设施不完善。MiniMax 认为 GPU 的快速进步将解决 …
AI 前线
- 0
- 0
勇敢牛牛25年12月24日
万字长文讲透 LLM 核心：Transformer 架构原理解析

文章全面且深入地剖析了作为大型语言模型（LLM）基石的 Transformer 架构。从基础概念入手，详细讲解了文本如何通过分词、词嵌入和位置编码转化为模型可处理的数字表示。核心部分聚焦于注意力机制，包括自注意力、多头注意力和因果注意力，阐释了模型如何捕捉词语间的复杂依赖关系，并有效解决了传统 RNN 在处理长文本时面临的长距离依赖和并行计算等问题和挑战。此外，文章还介绍了前馈神经网络（FFN/M…
AI 前线
- 0
- 0
勇敢牛牛25年12月23日

❯

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_✈_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部