Transformer 已死?DeepMind 正在押注另一条 AGI 路线

新智元报道指出,DeepMind 正押注「嵌套学习」作为解决 AI「灾难性遗忘」和实现 AGI 的关键路线,挑战 Transformer 架构。文章详细阐述了嵌套学习的核心思想:将 AI 模型视为一个由多层联想记忆系统构成的递归嵌套系统,通过不同更新频率的模块协同进化,实现短期经验向长期知识的自然迁移。该理论由谷歌研究实习生 Ali Behrouz 提出,他将 Transformer 的局限性比喻为“顺行性遗忘症”,只有打通短暂上下文记忆与长期预训练知识之间的通道,AI 才能真正持续学习。文章还介绍了 MIRAS 框架和 HOPE 架构,验证了嵌套学习在长上下文处理和持续学习任务上的显著优势,并引发了对未来 AGI 伦理及风险的深思。




Transformer 已死?DeepMind 正在押注另一条 AGI 路线


新智元报道  

编辑:KingHZ

【新智元导读】借鉴人类联想记忆,嵌套学习让AI在运行中构建抽象结构,超越Transformer的局限。谷歌团队强调:优化器与架构互为上下文,协同进化才能实现真正持续学习。这篇论文或成经典,开启AI从被动训练到主动进化的大门。

「灾难性遗忘」,一个困扰了AI界几十年的幽灵,这一次或许被彻底解决了。

过去一年,AI突飞猛进,绝非夸张的修辞,仅谷歌DeepMind一年的成就,就让人眼花缭乱:

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

但如果DeepMind要选2025年最重要的研究或产品,那最近火爆的嵌套学习「Nested Learning」必有一席之地。

有网友读过论文之后,发帖表示,这篇论文就是《Attention is All you Need》的「续集」。

如果Transformer开启了Scaling时代,那么嵌套学习,可能正在开启真正的AGI时代。

DeepMind创始人Shane Legg更直接,AGI一路坦途,最新进展就是嵌套学习。

甚至有网友表示,如果要给未来的外星人留一篇论文,必然是这篇《嵌套学习》。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

上下滑动查看

如果实现AGI需要2-3项突破,持续学习可能就是其中之一,而谷歌已发表了多篇相关论文。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

然而,这些论文有一个共同的作者──

康奈尔大学计算机科学系二年级博士生、谷歌研究院(纽约)研究实习生Ali Behrouz。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer的记忆之殇

在多方面,Transformer表现出色,能够Scaling、推动AI跨越,能实现跨任务、跨领域的泛化能力。

但谷歌很早就意识到一件事:Transformer并不完美。

1. 长上下文处理效率低 

2. 抽象知识层级有限 

3. 适应性弱 

4. 缺乏持续学习能力

特别是第四点,Ali认为那是最关键的问题。

当提到「持续学习」(Continual Learning),我们指的是:

没有训练期,也没有测试期;

模型在使用过程中,持续塑造新的记忆和抽象结构。

人类天生如此。

但对今天的大语言模型来说,几乎不存在任何「持续学习」。

为了说明问题有多本质,Ali用了一个医学上的类比:顺行性遗忘症(Anterograde Amnesia)。

这种病的患者有一个非常诡异的特征:

  • 他们的短期记忆是正常的

  • 他们的长期记忆也还在

但问题在于: 👉短期记忆,无法转移为长期记忆。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

于是,他们永远活在「现在」。

新的经历进来,过一会儿就消失; 世界在变,但他们的大脑不再更新

现在,把这个病,套到LLM身上。

你会发现,大模型和人类患者一模一样。

今天的大语言模型,知识主要来自两部分:

预训练阶段学到的长期知识、

当前上下文里的短期信息。

但这两者之间,几乎完全没有通道

AI模型无法自然地把「刚刚学到的东西」,沉淀为未来可复用的知识。

想让它真的学会?

你只能:再烧钱、再训练、再微调。

这和顺行性遗忘症患者的状态,本质上没有区别。

真正的问题不是参数不够多,不是数据不够大,也不只是算力不够。

问题的本质在于「短期记忆」和「长期记忆」之间,根本没有一条自然的知识转移通道

如果这条通道不存在,所谓「持续学习」,就永远只是一个口号。

这引出了一个核心问题:我们该如何构建一种机制,让AI模型像人类一样,将「现在」的经历沉淀为「未来」的知识?

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

一切AI皆是「联想记忆」

如果想让AI真正具备持续学习能力,那你绕不开一个最底层的问题:

模型到底是「怎么记住东西的」?

Ali给出的答案,不是Transformer,不是参数量,而是一个更原始、更根本的概念:联想记忆(Associative Memory)

所谓「联想记忆」,是人类学习机制的基石。

它的本质,是通过经验将不同的事件或信息相互关联。

比如,你看到一张脸,马上想起一个名字;你闻到某个味道,唤起一段记忆。

这不是逻辑推理,而是关联的建立

技术上,联想记忆就是键值对映射:

  • Key:线索

  • Value:与之关联的内容

但关键在于,联想记忆的映射关系不是预先写死的,而是「学出来的」。

从某种角度来看,注意力机制本质上就是一种联想记忆系统:它学习如何从当前上下文中提取key,并将其映射到最合适的value,从而产生输出。

如果我们不仅优化这种映射本身,还让系统去元学习(meta-learn)这种映射过程的初始状态,会发生什么?

基于对联想记忆的理解,他们提出了一个通用框架,名为MIRAS,用于系统化地设计AI模型中的记忆模块。

这一框架的核心思想是:

几乎所有注意力机制、本地记忆结构,乃至优化器本身,其实都可以视为联想记忆的特例。

为了设计一套「可学习的、嵌套式的记忆系统」,我们需要对模型中的记忆结构做出四大设计决策:

  1. 记忆架构(Memory Architecture)

  2. 注意力偏置/目标函数(Attentional Bias/Objective)

  3. 保留机制(Retention Gate)

  4. 学习规则(Learning Rule)

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

这个框架可以用来统一解释许多已有的注意力机制与优化器

简单来说:MIRAS让我们能够把「记忆」作为一种学习过程进行建模、组合与优化,而不仅仅是一个静态模块。

更进一步,优化器也可以被统一视为「将当前梯度映射到历史信息」的联想过程,就可以对它们进行重新建模与推广。

优化器就是一种「记忆模块」,是模型理解其学习历史、进而做出更优决策的关键组件。

优化过程与学习算法/架构本质上是相同的概念,只是处于系统不同层级中具有不同的上下文(即梯度与数据)。

此外,它们是两个相互连接的组件,其中学习算法/架构为优化器生成上下文(即梯度)。这支持为特定架构设计专属优化器的理念。

由此,谷歌的团队探讨了不同层级之间的知识传递方式,提出了嵌套学习。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

嵌套学习

专治LLM失忆症

基于NL的观点,谷歌团队使用反向传播和梯度下降训练深度神经网络,本质上是一个压缩与优化问题,其目标是训练一种联想记忆(associative memory),以将各层的输入映射到其预测中对应的局部误差。

相应地,他们认为预训练是一种上下文内学习形式,其中上下文是全部预训练数据,而各网络层则将该上下文压缩进其参数之中。而其他流行的基于梯度的优化器,本质上也是旨在将梯度压缩进其参数中的联想记忆。

优化器与架构并不是彼此独立的,它们应该互为上下文、协同进化。

为了正式定义Nested Learning(嵌套学习)框架,需要了解两个核心概念:更新频率(Update Frequency)嵌套系统(Nested System)

一、更新频率

首先设定一个时间单位,通常取系统中更新最慢的模块的一次更新作为基本时间单位。

然后,对于系统中其他组件,我们统计它们在一个时间单位内更新了多少次,就得到了它们的「更新频率」。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

举个例子:

假设循环神经网络(RNN),上下文长度为(L),那么在处理一段长度为(L)的文本时,RNN的状态会更新(L)次;

而如果外层是一个只在每个文档级别上更新的模块(如预训练模型),那么它的更新频率就是1。

因此,我们可以说:RNN是「快模块」,预训练模型是「慢模块」。

通过这种不同频率的组合,我们就能构建出一个在不同时间尺度上都能学习的系统。

二、嵌套系统(Nested System)

接下来,我们定义什么是一个「嵌套系统」。

它由多个独立的子模块组成,每个模块都有:

自己的参数(Parameter); 

自己的上下文(Context); 

自己的优化目标(Objective); 

自己的梯度流(Gradient Flow)。

这些模块之间以「更新频率」的快慢形成嵌套关系。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

如果我们把每个子模块都视为一个联想记忆系统,那么整个模型就可以看作是一个嵌套的联想记忆系统(Nested Associative Memory System)

更进一步,每一个这样的联想系统,本身又可以由更小的优化子过程构成,从而形成递归嵌套。

当构建了一个由多个层级组成的嵌套系统之后,最关键的问题就来了:

不同层之间的知识要如何传递?

知识转移方式有以下几种,这些机制构成了Nested Learning架构中「信息流动」的基础:

  • 直接条件传递(Direct Conditioning)慢层(外层)模型的输出直接作为快层(内层)模型的输入条件

  • 非参数化条件传递:不依赖额外参数,模型的输出直接依赖于上下文本身。虽然没有显式参数连接,但输出依然受到内层状态的强烈影响。

  • 通过反向传播传递(Gradient-Based Transfer)梯度本身就构成了知识的传递路径——高层对目标的判断,反向指导底层如何调整参数。

  • 初始状态传递(Meta-Learned Initialization):慢层模型生成快层模型的初始状态。外层学习一个初始化点,使得内层可以通过少量更新迅速适应新任务。

  • 权重生成(Hypernetwork):慢层模型直接生成快层模型的参数。这就是超网络(Hypernetwork)的本质。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

理论固然重要,但最终还是要看这些设计能否在真实任务中带来性能提升。

结合自我修改(Self-Modifying)与连续记忆系统(Continuum Memory System),谷歌提出了嵌套学习范式下的HOPE架构。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

他们将Nested Learning与HOPE架构应用于多个任务场景中,尤其聚焦在「长上下文」和「持续学习」两个维度。

总体来看,HOPE在多个核心任务上都优于或显著超越现有对比模型,尤其是在持续学习和长上下文方面显示了明显优势。这体现了嵌套学习和连续记忆系统的潜力。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

上下滑动查看

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

这到底意味着什么?

Nested Learning不只是一个架构框架,而是一种重新理解深度学习的范式

谷歌DeepMind内部也传出消息:他们已经突破了持续学习,但因为安全原因尚未发布。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

如果嵌套学习解决了持续学习能力,或许将是未来最重要的事。

Transformer 已死?DeepMind 正在押注另一条 AGI 路线

DeepMind的沉默,或许比他们的论文更震耳欲聋。

持续学习赋予了AI可怕的能力:它不再仅仅回应我们的指令,而是开始根据过往的经验,筛选它认为重要的东西。也就是说,它开始有了「偏好」。

如果嵌套学习真的解决了灾难性遗忘,那么我们亲手打开的,可能不只是一扇通往AGI的大门,更是一个未知的潘多拉魔盒。

盒子里的东西,究竟是更聪明的工具,还是一个不仅学会了思考、更学会了「记住仇恨与偏爱」的对手?

这一次,钥匙在谷歌手中,但未来在谁手中?

参考资料:

https://www.youtube.com/watch?v=3WqZIja7kdA

https://www.youtube.com/watch?v=uX12aCdni9Q


AI 前线

从每天收入 5 美元到上市,智谱 Z.ai 这一年做对了什么?

2026-1-10 18:16:54

AI 前线

谁说老实人赚不到钱?Claude 用一张 3500 亿的支票打脸 OpenAI

2026-1-10 18:17:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索