本文介绍了伦敦国王学院提出的 xMemory 框架,旨在重新定义 AI Agent 的长程记忆机制。针对传统 RAG 在处理连贯对话流时存在的“车轱辘话”冗余和多跳推理断链问题,xMemory 采用了“拆-聚-检”三步走策略:首先将对话拆分为原始消息、片段、语义、主题四个层级;其次利用稀疏-语义目标函数动态调整记忆结构,支持主题的自动合并与拆分;最后通过自顶向下的检索与不确定性闸门,精准筛选能降低模型预测熵的关键证据。实验表明,该方法在减少约 30% Token 消耗的同时,显著提升了 QA 表现,尤其在小模型上效果更为突出。
Paper小AI 2026-02-06 11:53 湖北

嗨,我是PaperAGI,主要关注LLM、RAG、Agent等AI前沿技术,每天分享业界最新成果和实战案例。
伦敦国王学院团队提出 xMemory,用「先拆后聚」的层级记忆结构,把智能体长程对话的冗余检索砍掉 30% Token,QA 分数反而提升 10+ 点。
RAG 在 Agent 场景「水土不服」
|
传统 RAG 假设 |
Agent 记忆现实 |
|---|---|
|
海量异构文档 |
单人连贯对话流 |
|
段落间差异大 |
跨度高度重复 |
|
丢一点无关痛痒 |
删掉一句就断链 |
后果:
-
top-k 相似度检索 → 一抓全是“车轱辘话”
-
后剪枝压缩 → 把时间线、指代链剪断,多跳推理直接崩

xMemory「拆-聚-检」三步曲
|
步骤 |
关键动作 |
一句话解释 |
|---|---|---|
|
① 拆 |
4 级层级 |
原消息 → 片段 → 语义 → 主题,越往上越抽象 |
|
② 聚 |
稀疏-语义目标函数 |
自动拆分过大主题、合并过小主题,防止「一锅端」 |
|
③ 检 |
自顶向下 + 不确定性闸门 |
先选主题/语义,再按需展开原消息,Token 花在刀刃上 |

四级记忆树
-
Original
原始对话,保留时间戳与指代链 -
Episode
连续消息块,用边界检测 Prompt 自动分段 -
Semantic
可复用的事实,如“用户 2025 年 1 月搬到西雅图” -
Theme
高阶概念,如“职业规划 / 家庭关系”
> 每级节点保持「完整证据单元」,不再机械切片。
稀疏-语义目标函数
f(P) = SparsityScore + SemScore
-
SparsityScore:主题大小越均衡越好,避免「超大候选集」
-
SemScore:同类语义紧、不同主题疏,防止「语义孤岛」
在线增量:新语义先贴最近主题,触发阈值即自动 split/merge,44.9% 节点会被动态重分配,记忆越用越有条理。
自顶向下检索
Stage 1 骨架选择
在主题-语义层做子模贪心,挑「覆盖广 & 相关高」的代表节点,天然去重。
Stage 2 不确定性扩张
只把能显著降低 LLM 预测熵的 Episode/原消息放进来,多余一句都不给。
实验展示
Token 砍半,分数反升
|
数据集 |
平均指标 |
最强基线 |
xMemory |
Δ |
Token↓ |
|---|---|---|---|---|---|
|
LoCoMo |
BLEU / F1 |
36.65 / 48.17 |
38.71 / 50.00 |
+2.1 / +1.8 |
–28% |
|
PerLTQA |
BLEU / F1 / R-L |
33.44 / 41.79 / 38.43 |
36.79 / 46.23 / 41.25 |
+3.4 / +4.4 / +2.8 |
–38% |
跨 3 款 LLM(Qwen3-8B、Llama-3.1-8B、GPT-5-nano)趋势一致,模型越小,提升越大。
深度拆解:为什么好用?
|
消融实验 |
BLEU↓ |
Token↑ |
结论 |
|---|---|---|---|
|
只用层级结构 |
–2.7 |
+53% |
比 RAG 强,但冗余仍在 |
|
+ 代表选择 |
–1.9 |
+34% |
高层去重效果明显 |
|
+ 不确定性闸门 |
–1.2 |
+39% |
底层精修,证据更密 |
|
完整 xMemory |
最佳 |
最低 |
二者互补,1+1>2 |
证据密度实验
xMemory 检索块里「同时命中 2+ 答案词」的比例提高 2×,而剪枝方案把多命中块削成 1 命中,反而更稀疏。
一张图对比

同一段长对话,RAG 抓 20 块才覆盖答案,xMemory 只用 5 块;剪枝虽然 Token 少,但把关键细删掉了。
3个实战锦囊
-
别再盲调 top-k
Agent 记忆高度自相关,k 越大越冗余;先分层再贪心选代表,效果立竿见影。 -
剪枝慎用
对话证据链式耦合,剪“废话”容易剪“前提”;用不确定性闸门替代硬剪枝,准确率↑ Token↓。 -
结构要“活”
用户随时会纠正事实,让主题可 split/merge,记忆才不会“僵化”。
xMemory 首次把「层级解构 + 信息论指导 + 不确定性扩张」做成端到端检索框架,在 Agent 长程记忆场景里全面碾压传统 RAG。作者已放出代码(MIT 协议),下一步将支持多模态记忆与联邦隐私版本,个人助理、游戏 NPC、企业知识库都能用。
让 AI 记住你,不再是“金鱼脑”,也不会“话痨”——这就是后 RAG 时代的开始。
Beyond RAG for Agent Memory: Retrieval by Decoupling and Aggregation
https://arxiv.org/pdf/2602.02007
每天一篇大模型Paper来锻炼我们的思维~已经读到这了,别忘了点赞、关注噢
推荐阅读
免费资源分享:MCP、RAG、Agent全都有,384页最全LLM落地指南

