61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

文章详细介绍了 MemRL 框架,这是由上海交通大学、西安电子科技大学等团队提出的一种 AI Agent 自我进化新路径。该框架通过结合强化学习和情景记忆,使大模型在无需微调参数的情况下,实现了对“人类最后一场考试”(HLE)的及格,准确率达到 61.3%。MemRL 的核心在于引入了“意图-经验-效用”三元组来评估记忆价值,并设计了 Q 值更新和经验回写机制,使 Agent 在运行时能持续学习和自我修正。实验证明,MemRL 在多个基准测试(如 ALFWorld、HLE)上性能显著优于现有方法,并展现出强大的迁移学习能力和对长程任务的优势,以及从“差一点就成功”的案例中学习的能力。MemRL 提供了一种更经济、高效的通用人工智能发展路径,强调通过不断进化的记忆系统实现终身学习。




61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

拒绝微调,告别死记硬背:MemRL如何让大模型拥有“会思考的长期记忆”?

                                                                                         61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

图片

01

导语:跨越及格线

“人类最后一场考试”(Humanity's Last Exam, HLE)一直被视为AI推理能力的“终极考验”。面对这场汇聚了多学科专家级难题的极限测试,此前的大模型往往折戟沉沙。即便是强大的 Gemini-3-Pro,在没有任何辅助的情况下,准确率也仅为 35.7%;在允许AI访问google search的情况下,准确率也仅为45.8% 。

然而,一项最新的研究打破了这一僵局。上海交通大学、西安电子科技大学、上海创智学院与记忆张量(MemTensor) 的联合团队提出了一种名为 MemRL 的新框架,在不微调模型参数的前提下,让 AI 的成绩一举跃升至 61.3%AI 终于及格了,但它做对的不仅仅是“刷题”,而是学会了像人类一样从过往经验中“提炼智慧”。

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

HLE 之所以被称为“人类最后一场考试”,是因为它考验的不再是单纯的知识储备,而是对人类资深专家级问题的深入理解和复杂推理能力。而这,恰恰击中了当前大模型技术栈的软肋。

图片

02


痛点:为什么传统的“外挂大脑”不管用?

在通往通用人工智能(AGI)的路上,我们一直希望 Agent 能像人类一样持续学习。作者们尝试过两条路,但都很难走:

1.微调(Fine-tuning): 就像通过“做手术”来增加脑容量。成本高昂不说,还容易引发“灾难性遗忘”,学了新知识,忘了旧本领 。

2.RAG(检索增强):就像给 AI 一本“参考书”。但传统的 RAG 是盲目检索,它只看关键词匹不匹配(语义相似度),却不管检索回来的内容对解决问题有没有真正的帮助。

结果就是,Agent 往往检索回来一堆看似相关实则无用的“噪声”,导致推理失败。

既然“改造大脑”(微调)太危险,“盲目翻书”(RAG)又不靠谱,有没有一种方法,既能保持大脑的稳定性,又能像人类一样灵活地积累经验?

图片

03


破局:MemRL 的“认知觉醒”

答案就藏在我们的生物本能中,MemRL 的核心理念受到了人类认知科学中构建性情景模拟的深刻启发:将“稳定的推理能力”与“动态的情景记忆”解耦

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

这就好比一个聪明人(冻结的 LLM),他的智商是固定的,但他可以通过不断优化自己的“方法笔记”(进化的记忆)来解决新问题。MemRL 不再执着于“我记得什么”,而是开始思考“过往的经历中哪些经验教训是值得借鉴的,如果参考过往的某种做法接下来会发生什么”,进而得到改进后的策略,并在新策略付诸实施后根据结果再更新对过往经验的评价 。

1.核心机制——记忆的三元组

传统的 RAG(检索增强生成)只看“长得像不像”(语义相似度),而 MemRL 引入了一个更像人类的机制:“Intent-Experience-Utility”(意图-经验-效用)三元组。

简单来说,每一次Memory不仅存储了“我想做什么”(Intent)和“我做了什么”(Experience),更关键的是贴上了一个“这一招好不好用”的标签(Utility/Q值)。这就像我们在脑海里给过去的经验打分,下次遇到类似问题,不仅看谁相关,更看谁的参考价值更大。

2.它是如何“思考”的?——引入“价值评估”过程

MemRL 抛弃了传统的简单存储,它为每一条记忆打上了一个 Q值(效用分数) 。

·在检索时,它不仅看“这条经验和当前问题像不像”(阶段A:语义召回);

·更会像一个严厉的批评家一样审视:“历史数据告诉我,用这条经验解决这类问题,预期的结果好吗?”(阶段B:价值感知选择)。

通过加权语义相似度以及效用分数,MemRL 能够精准地从海量记忆中捞出那些真正能通向成功的“金钥匙” 。

3.它是如何“进化”的?——无参数的自我修正

MemRL 的核心在于让 Agent 在运行时“记住什么是有效的”。这一过程完全在记忆空间 (Memory Space) 内完成,不需要任何梯度传播。

具体的进化包含两个并行过程:

1.Q 值更新 (Refining Utilities): 当 Agent 完成任务并获得环境反馈(Reward, 如成功/失败或分数)后,我们会对刚才使用过的记忆进行“蒙特卡洛式更新”(Monte Carlo style update)。

·我们使用One-step MDP 形式,将当前状态视为终局,对记忆的Q值进行更新。

·通过这一规则,记忆的 Q 值会被推向“经验期望回报” (Empirical Expected Return)。

·简单来说:如果某条记忆刚才帮了大忙,它的 Q 值会上升,预示着它在相似的场景下具备更高的“参考价值”;反之则会降低。

2.经验回写 (Experience Expansion): 除了更新旧记忆,MemRL 还会将当前的完整轨迹(Trajectory)通过 LLM 总结为新的经验,并且结合意图(intent)以及初始化的效用(Q-init)成一个新的三元组 (Intent,Experience,Q-init),写入记忆库。这意味着记忆库不仅在“修正”旧知,还在不断“扩充”新知。

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

图片

04


实验核心:Runtime 进化与记忆的真正价值

1. Main Results: 惊人的 Runtime Learning 能力

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

作者们在四大 Benchmark 上进行了测试:BigCodeBench (代码生成)、ALFWorld (具身决策)、Lifelong Agent Bench (操作系统/数据库交互) 和 HLE (复杂推理)。 对比基线包括 Standard RAGSelf-RAG 以及最先进的 Agent Memory 方法 (Mem0, MemP)。 结论非常硬核(Table 1) MemRL 不需要任何参数更新 (Training-free),仅靠运行时积累经验,就能实现持续的性能攀升。

·在 ALFWorld 中,MemRL 的最终准确率达到 69.7%,相比 MemP (45.6%) 提升了 53%

·在 HLE 这种高难度基准上,MemRL 同样刷新了记录:首次突破 60%。 这证明了“非参数化强化学习”能让 Agent 像人类一样,通过 Trial-and-Error(试错)在运行时持续学习,越来越强。

2. Transfer Learning: 举一反三的泛化能力

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

不仅是“熟能生巧”,MemRL 还学会了“触类旁通”。 作者们测试了迁移学习场景 (Table 2):让 Agent 先训练,然后冻结记忆库,直接在 30% 的未见任务 (Held-out sets) 上测试。 结果显示: MemRL 在所有任务上都超越了 RAG 和 MemP。 这意味着 MemRL 存储的不仅仅是具体的“答案”,更是抽象的“高价值策略”。它成功过滤掉了那些只能解决特定训练题的“过拟合记忆”,留下了真正能应对未知环境的通用经验

图片

05


深入分析:不止罗列成果,

文章还提出了非常深入的分析与思考

1. 轨迹验证器:长程任务更有提升空间 (Trajectory Verifier)

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

实验数据(Table 3)揭示了一个关键现象:任务链路越长,MemRL 优势越大。

· 在单步任务 (BigCodeBench) 上提升较小 (+2.5 pp);

· 但在 多步顺序任务 (ALFWorld) 上,提升高达 +24.1 pp! 原因揭秘: 传统 RAG 容易检索到“开头很像但结局跑偏”的错误经验。而 MemRL 因为记录了整条轨迹的 Q 值 (Utility),它实际上充当了一个 “轨迹验证器” (Trajectory Verifier)。它能预判这条路走下去会不会“翻车”,从而在一开始就避开那些表面看似相关、实则会导致失败的路径。

2. 意外发现:从“差一点”中学习 (Near-misses)

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

这是一个反直觉但极具深意的发现 (Figure 8b)。 作者们在高 Q 值 (High-Utility) 的记忆库中,发现了约 12% 的失败案例。  深入分析发现,其中存在一些“Near-misses” (差一点就成功) 的案例。它们虽然最终报错(例如输出格式微小错误),但整体推理逻辑是正确的。MemRL 敏锐地识别出了这些案例的“战略价值”,将它们作为“纠错指南”保留下来。这证明系统具备了从部分失败中提取正确逻辑的高级能力,也符合人类从失败中学习的认知原理。

3. 理论保证的稳定性:告别灾难性遗忘 (Stability Guarantee)

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

持续学习最怕“捡了芝麻丢西瓜”。 在长期训练动态 (Figure 9) 中,作者们揭示了一个残酷的现象:启发式方法(如 MemP)往往出现 CSR(历史最佳)与当前准确率的脱节。这意味着新的探索无意中“覆盖”了旧的成功策略,导致了灾难性遗忘。

相比之下,MemRL 展现了更加一致的 Synchronized Growth (同步增长)。这源于 MemRL 背后收敛稳定性的理论保障,这也是MemRL与大多自进化智能体的核心区别

·蒙特卡洛式建模的收敛性 (Monte Carlo Style Modeling): 基于原文 Eq. 8 的建模,作者们在原文 Section 4.5 中给出了相应的理论分析,确保了算法的收敛稳定性。

·变分下界约束 (Variational Lower Bound): 不同于启发式排序可能出现的随机漂移,MemRL会推动策略去攀登“期望奖励的变分下界”

结论: 这从理论层面锁定了性能的单调不减 (Non-decreasing),确保每一次更新都是在夯实地基,而非拆东墙补西墙。从这个实验中我们也能得到一个有价值的启发:在这个Agent爆发的时代,很多时候并不需要理论保障,仅通过直觉搭个“Agentic Pipeline”也能观察到显著的性能提升(如图中蓝色线条),那我们为什么要去研究理论呢,通过这张图,或许能窥见一部份答案。

4. 数据洞察:从数据集的语义空间到记忆泛化

61.3%!「人类最后一场考试」AI 终于及格了,揭秘 Agent 自我进化新路径

在实验的最后,作者们通过 Figure 11 探讨了一个根本性问题:“长得像”是否意味着“更有用”? 作者们的核心发现是:数据集内的相似度(Intra-dataset Similarity)与 Memory Gain(记忆带来的性能提升)呈现出显著的正相关性。

基于这一发现,作者们进一步解析了 MemRL 的收益来源,将其归纳为两种截然不同的模式:

1.Positive Transfer (正向迁移): 在 ALFWorld 这类具有高相似度的任务中,MemRL 充分利用相似性快速复用历史上的不同问题的最优策略,从而获得了最大的收益。

2.Runtime Memorization (运行时记忆): 在 HLE 这类低相似度/跨学科的任务中,虽然题目之间互不相同,但 MemRL 依然获得了 +21.6% 的显著提升。这得益于其强大的“单题突破”能力——即通过“记住”特定难题的解法来应对复杂场景。

结论: 这解释了 MemRL 为什么既能做“举一反三”的通用推手(依靠 Transfer),也能做“博闻强记”的特定领域专家(依靠 Memorization)。

图片

06


结语:迈向终身学习的 Agent

上海交大、西电、上海创智学院与记忆张量团队的这项工作,为 AI 社区提供了一个优雅的范式:我们不需要总是通过昂贵的训练来让模型变强,也不需要针对问题场景去精雕细琢所谓的“agentic pipeline”

MemRL 证明了,一个冻结的大脑,配合一个不断自我进化的记忆系统,就能实现持续的终身学习(Lifelong Learning)。这或许才是通往 AGI 更经济、更高效的未来之路。

论文信息

·论文标题: MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

·联合团队: 上海交通大学、西安电子科技大学、上海创智学院、记忆张量(MemTensor)等

·arXiv 链接:https://arxiv.org/abs/2601.03192


AI 前线

2026-01-08 Hacker News Top Stories #

2026-1-10 18:18:46

AI 前线

新出版:AI 驱动的产业变革与知识文化创新范式

2026-1-10 18:18:52

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索