Transformer 已死？DeepMind 正在押注另一条 AGI 路线

新智元报道指出，DeepMind 正押注「嵌套学习」作为解决 AI「灾难性遗忘」和实现 AGI 的关键路线，挑战 Transformer 架构。文章详细阐述了嵌套学习的核心思想：将 AI 模型视为一个由多层联想记忆系统构成的递归嵌套系统，通过不同更新频率的模块协同进化，实现短期经验向长期知识的自然迁移。该理论由谷歌研究实习生 Ali Behrouz 提出，他将 Transformer 的局限性比喻为“顺行性遗忘症”，只有打通短暂上下文记忆与长期预训练知识之间的通道，AI 才能真正持续学习。文章还介绍了 MIRAS 框架和 HOPE 架构，验证了嵌套学习在长上下文处理和持续学习任务上的显著优势，并引发了对未来 AGI 伦理及风险的深思。

新智元报道

编辑：KingHZ

【新智元导读】借鉴人类联想记忆，嵌套学习让AI在运行中构建抽象结构，超越Transformer的局限。谷歌团队强调：优化器与架构互为上下文，协同进化才能实现真正持续学习。这篇论文或成经典，开启AI从被动训练到主动进化的大门。

「灾难性遗忘」，一个困扰了AI界几十年的幽灵，这一次或许被彻底解决了。

过去一年，AI突飞猛进，绝非夸张的修辞，仅谷歌DeepMind一年的成就，就让人眼花缭乱：

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

但如果DeepMind要选2025年最重要的研究或产品，那最近火爆的嵌套学习「Nested Learning」必有一席之地。

有网友读过论文之后，发帖表示，这篇论文就是《Attention is All you Need》的「续集」。

如果Transformer开启了Scaling时代，那么嵌套学习，可能正在开启真正的AGI时代。

DeepMind创始人Shane Legg更直接，AGI一路坦途，最新进展就是嵌套学习。

甚至有网友表示，如果要给未来的外星人留一篇论文，必然是这篇《嵌套学习》。

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

上下滑动查看

如果实现AGI需要2-3项突破，持续学习可能就是其中之一，而谷歌已发表了多篇相关论文。

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

然而，这些论文有一个共同的作者──

康奈尔大学计算机科学系二年级博士生、谷歌研究院（纽约）研究实习生Ali Behrouz。

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

Transformer的记忆之殇

在多方面，Transformer表现出色，能够Scaling、推动AI跨越，能实现跨任务、跨领域的泛化能力。

但谷歌很早就意识到一件事：Transformer并不完美。

1. 长上下文处理效率低

2. 抽象知识层级有限

3. 适应性弱

4. 缺乏持续学习能力

特别是第四点，Ali认为那是最关键的问题。

当提到「持续学习」（Continual Learning），我们指的是：

没有训练期，也没有测试期；

模型在使用过程中，持续塑造新的记忆和抽象结构。

人类天生如此。

但对今天的大语言模型来说，几乎不存在任何「持续学习」。

为了说明问题有多本质，Ali用了一个医学上的类比：顺行性遗忘症（Anterograde Amnesia）。

这种病的患者有一个非常诡异的特征：

他们的短期记忆是正常的
他们的长期记忆也还在

但问题在于： 👉短期记忆，无法转移为长期记忆。

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

于是，他们永远活在「现在」。

新的经历进来，过一会儿就消失；世界在变，但他们的大脑不再更新。

现在，把这个病，套到LLM身上。

你会发现，大模型和人类患者一模一样。

今天的大语言模型，知识主要来自两部分：

预训练阶段学到的长期知识、

当前上下文里的短期信息。

但这两者之间，几乎完全没有通道。

AI模型无法自然地把「刚刚学到的东西」，沉淀为未来可复用的知识。

想让它真的学会？

你只能：再烧钱、再训练、再微调。

这和顺行性遗忘症患者的状态，本质上没有区别。

真正的问题不是参数不够多，不是数据不够大，也不只是算力不够。

问题的本质在于「短期记忆」和「长期记忆」之间，根本没有一条自然的知识转移通道。

如果这条通道不存在，所谓「持续学习」，就永远只是一个口号。

这引出了一个核心问题：我们该如何构建一种机制，让AI模型像人类一样，将「现在」的经历沉淀为「未来」的知识？

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

一切AI皆是「联想记忆」

如果想让AI真正具备持续学习能力，那你绕不开一个最底层的问题：

模型到底是「怎么记住东西的」？

Ali给出的答案，不是Transformer，不是参数量，而是一个更原始、更根本的概念：联想记忆（Associative Memory）。

所谓「联想记忆」，是人类学习机制的基石。

它的本质，是通过经验将不同的事件或信息相互关联。

比如，你看到一张脸，马上想起一个名字；你闻到某个味道，唤起一段记忆。

这不是逻辑推理，而是关联的建立。

技术上，联想记忆就是键值对映射：

Key：线索
Value：与之关联的内容

但关键在于，联想记忆的映射关系不是预先写死的，而是「学出来的」。

从某种角度来看，注意力机制本质上就是一种联想记忆系统：它学习如何从当前上下文中提取key，并将其映射到最合适的value，从而产生输出。

如果我们不仅优化这种映射本身，还让系统去元学习（meta-learn）这种映射过程的初始状态，会发生什么？

基于对联想记忆的理解，他们提出了一个通用框架，名为MIRAS，用于系统化地设计AI模型中的记忆模块。

这一框架的核心思想是：

几乎所有注意力机制、本地记忆结构，乃至优化器本身，其实都可以视为联想记忆的特例。

为了设计一套「可学习的、嵌套式的记忆系统」，我们需要对模型中的记忆结构做出四大设计决策：

记忆架构（Memory Architecture）
注意力偏置/目标函数（Attentional Bias/Objective）
保留机制（Retention Gate）
学习规则（Learning Rule）

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

这个框架可以用来统一解释许多已有的注意力机制与优化器。

简单来说：MIRAS让我们能够把「记忆」作为一种学习过程进行建模、组合与优化，而不仅仅是一个静态模块。

更进一步，优化器也可以被统一视为「将当前梯度映射到历史信息」的联想过程，就可以对它们进行重新建模与推广。

优化器就是一种「记忆模块」，是模型理解其学习历史、进而做出更优决策的关键组件。

优化过程与学习算法/架构本质上是相同的概念，只是处于系统不同层级中具有不同的上下文（即梯度与数据）。

此外，它们是两个相互连接的组件，其中学习算法/架构为优化器生成上下文（即梯度）。这支持为特定架构设计专属优化器的理念。

由此，谷歌的团队探讨了不同层级之间的知识传递方式，提出了嵌套学习。

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

嵌套学习

专治LLM失忆症

基于NL的观点，谷歌团队使用反向传播和梯度下降训练深度神经网络，本质上是一个压缩与优化问题，其目标是训练一种联想记忆（associative memory），以将各层的输入映射到其预测中对应的局部误差。

相应地，他们认为预训练是一种上下文内学习形式，其中上下文是全部预训练数据，而各网络层则将该上下文压缩进其参数之中。而其他流行的基于梯度的优化器，本质上也是旨在将梯度压缩进其参数中的联想记忆。

优化器与架构并不是彼此独立的，它们应该互为上下文、协同进化。

为了正式定义Nested Learning（嵌套学习）框架，需要了解两个核心概念：更新频率（Update Frequency）与嵌套系统（Nested System）。

一、更新频率

首先设定一个时间单位，通常取系统中更新最慢的模块的一次更新作为基本时间单位。

然后，对于系统中其他组件，我们统计它们在一个时间单位内更新了多少次，就得到了它们的「更新频率」。

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

举个例子：

假设循环神经网络（RNN），上下文长度为(L)，那么在处理一段长度为(L)的文本时，RNN的状态会更新(L)次；

而如果外层是一个只在每个文档级别上更新的模块（如预训练模型），那么它的更新频率就是1。

因此，我们可以说：RNN是「快模块」，预训练模型是「慢模块」。

通过这种不同频率的组合，我们就能构建出一个在不同时间尺度上都能学习的系统。

二、嵌套系统（Nested System）

接下来，我们定义什么是一个「嵌套系统」。

它由多个独立的子模块组成，每个模块都有：

自己的参数（Parameter）；

自己的上下文（Context）；

自己的优化目标（Objective）；

自己的梯度流（Gradient Flow）。

这些模块之间以「更新频率」的快慢形成嵌套关系。

Transformer 已死？DeepMind 正在押注另一条 AGI 路线

如果我们把每个子模块都视为一个联想记忆系统，那么整个模型就可以看作是一个嵌套的联想记忆系统（Nested Associative Memory System）。

更进一步，每一个这样的联想系统，本身又可以由更小的优化子过程构成，从而形成递归嵌套。

当构建了一个由多个层级组成的嵌套系统之后，最关键的问题就来了：

不同层之间的知识要如何传递？

知识转移方式有以下几种，这些机制构成了Nested Learning架构中「信息流动」的基础：

直接条件传递（Direct Conditioning）：慢层（外层）模型的输出直接作为快层（内层）模型的输入条件
非参数化条件传递：不依赖额外参数，模型的输出直接依赖于上下文本身。虽然没有显式参数连接，但输出依然受到内层状态的强烈影响。
通过反向传播传递（Gradient-Based Transfer）：梯度本身就构成了知识的传递路径——高层对目标的判断，反向指导底层如何调整参数。
初始状态传递（Meta-Learned Initialization）：慢层模型生成快层模型的初始状态。外层学习一个初始化点，使得内层可以通过少量更新迅速适应新任务。
权重生成（Hypernetwork）：慢层模型直接生成快层模型的参数。这就是超网络（Hypernetwork）的本质。