LEGOMem:Modular Procedural Memory for Multi-agent LLM Systems for Workflow Automation


原文链接:https://arxiv.org/abs/2510.04851

本文提出LEGOMem,一个面向多智能体系统的模块化过程记忆框架,旨在通过结构化的记忆构建、检索与分配机制,提升系统的规划、协调与执行能力。

Background & Motivation

现在基于 LLM 的智能体被广泛应用于自动化复杂多步骤工作流,如文档编辑、邮件处理和日程安排等。多智能体系统逐渐成为主流架构,一般由一个中心协调器负责任务规划与分发,多个任务智能体负责执行具体子任务。

论文指出,现有的大多数多智能体系统是无状态的:每次任务都从头开始执行,不利用历史执行经验。这限制了系统在复杂工作流中持续学习和提升的能力。而面向单智能体的记忆机制可能无法有效泛化到多智能体系统上

多智能体系统相比单智能体,在记忆这一方面主要面临的问题有三点:

  • 缺乏过程记忆:无法从成功的历史轨迹中提取可复用的任务分解与执行模式。
  • 角色记忆不匹配:协调器需要高层次规划记忆,而任务智能体需要具体工具使用记忆。
  • 记忆检索粒度不灵活:现有方法如 Synapse 和 AWM 主要面向单智能体,多智能体系统中不同角色的记忆需求不同,记忆粒度也不一致,适应性不足。

Method

LEGOMem 的核心思想是:将成功的工作流轨迹像乐高积木一样,分解成标准化的、可重用的记忆模块,并在执行新任务时,将这些模块灵活地分配给系统中不同角色的智能体,以增强其规划和执行能力。

它的方法流程主要分为两个阶段:

阶段一:离线记忆构建

这个阶段的目标是从成功的任务执行轨迹中,提炼出结构化的记忆单元。

  1. 输入:成功完成的任务日志。日志记录了从协调器生成计划、分配任务,到各个任务智能体调用工具、获取观察结果的全过程。
  2. 记忆单元提取:使用LLM将原始日志转化为两种标准化的记忆单元:
    • 完整任务记忆以及子任务记忆。前者包含任务的全局视角,为协调器配置,包含协调器指定的步骤计划、子任务执行序列、任务最终输出。任务关键事项总结等。后者聚焦于单个 Agent 的具体操作,包含具体执行步骤,环境返回的结果观察摘要等。
  3. 记忆存储与索引
    • 所有记忆单元被存入一个向量数据库(如 FAISS)。对于完整任务记忆,使用任务描述的嵌入向量进行索引;对于子任务记忆(在 Dynamic 和 QueryRewrite 变体中),会为每个类型的任务智能体建立独立的子记忆库,并使用子任务描述的嵌入向量进行索引。

阶段二:在线记忆增强推理

当有新任务输入时,系统会检索并分配相关记忆,引导智能体执行。

  1. 记忆检索与分配
    • 协调器会根据新任务的描述,从全局记忆库中检索最相似的 K 个完整任务记忆。这为协调器提供了“前人”是如何分解和解决类似任务的完整蓝图。任务智能体则根据其不同的变体,分配不同记忆:
      • Vanilla LEGOMem: 直接从协调器检索到的完整任务记忆中,“拆出”对应的子任务记忆,静态地预分配给各任务智能体。
      • LEGOMem-Dynamic: 不预分配。当协调器动态生成一个子任务并分配给某个智能体(如A_i)时,系统实时地以该子任务描述为查询,在A_i的专属子记忆库中检索最相关的记忆。
      • LEGOMem-QueryRewrite: 在任务开始前,先用一个LLM根据检索到的完整任务记忆,为新任务草拟一个步骤计划 π_draft,然后基于这个计划中的每个预期子任务描述,提前为各个智能体检索好相关子任务记忆。
  2. 记忆增强的执行循环
    • 协调器利用获得的完整任务记忆进行初始规划动态规划(包括重新规划)。

整个流程如下图所示:

论文为了探究子任务检索粒度对多智能体系统的影响,提出了上文所述的对于任务智能体的三种变体。LEGOMem-DynamicLEGOMem-QueryRewrite 的工作流程如下图所示。

后续实验显示,当仅使用任务代理级记忆且任务代理采用小型语言模型时,LEGOMem-Dynamic 和 LEGOMem-QueryRewrite 的性能均优于标准 LEGOMem 。

Experiment & Results

  • 数据集:OfficeBench,包含300个办公自动化任务,分为L1(单应用)、L2(双应用)、L3(多应用)三个难度级别。评估指标为任务成功率。
  • 智能体配置
    • 分为三个配置:**(1) LLM 团队:全部使用 GPT-4o;(2) 混合团队:协调器用 GPT-4o,任务智能体用 GPT-4o-mini;(3) SLM 团队**:全部使用GPT-4o-mini
  • 基线方法:No Memory、Synapse(全轨迹记忆)、AWM(子任务序列记忆)

可以看到,所有 LEGOMem 变体均显著优于基线,平均提升约12-13%的成功率。- 轻量版 LEGOMem 表现最佳,说明模块化记忆结构本身已足够有效。并且使用 LEGOMem 后,SLM 团队甚至能超越无记忆的 LLM 团队。

而在 LEGOMem 框架中,记忆究竟是为协调器更重要,还是为任务智能体更重要?论文在相同的任务(OfficeBench 基准)和相同的智能体团队(全 LLM 团队)下,只改变记忆的分配方式做了消融研究。评估指标:

  • (a) 平均执行步骤数:完成一个任务需要多少个操作步骤(如工具调用)。步骤越少,代表效率越高
  • (b) 平均步骤失败率:智能体发出的操作指令中,出错(如调用错误工具、参数错误)的比例。失败率越低,代表执行可靠性越高

可以看到,对于所有难度级别(L1-L3)的任务,任何形式的记忆都比没有记忆更高效(步骤更少)。仅协调器记忆 的表现远优于 仅任务智能体记忆,并且非常接近 完整LEGOMem 的效果。

因此,协调器记忆主导效率提升,它通过优化宏观规划来减少不必要的步骤;而任务智能体记忆在复杂场景下作为补充,通过提升局部执行精度来进一步优化效率。

与步骤数类似,任何形式的记忆都显著降低了步骤失败率,使执行过程更加稳定可靠。仅协调器记忆 在降低失败率方面效果非常显著,而 仅任务智能体记忆 的效果相对较弱。

因此,协调器记忆通过避免规划错误来提升可靠性,而任务智能体记忆通过避免操作错误来提升可靠性。两者结合,实现了最鲁棒的执行。

My Thoughts

首先这篇文章感觉实验论文就不太充分,主对比验证实验只做了一组。另外对比的基线方法也是只有简单的单 Agent 记忆构建方法,没有对比一些比较新的 Agent 记忆框架方法(比如 Mem0,、A-Mem 等)。数据集也不充分。

而且方法设计也很简单,感觉应该和 RAG 进行一下对比,看看是不是构建记忆阶段的记忆在真正发挥作用,不然又是一篇没啥意义的文章,还不如用静态 RAG 去做。就实验 Benchmark 来看,我感觉 RAG 没准效果更好,,

而且我感觉这篇文章根本不太涉及记忆更新啊,记忆库是在离线阶段一次性构建的,之后在整个实验过程中是静态的。它不具备在线更新或自我演进的能力。记忆库的规模和质量完全依赖于初始的“训练集”,推理过程不继续更新,感觉有点鸡肋。

还有一点就是,LEGOMEM 的记忆库完全由成功的任务轨迹构建。然而从失败中汲取教训同样至关重要,当前的框架无法避免重复掉入同一个陷阱,这点是之前谷歌那篇 ReasoningBank 探讨过的,我感觉比较有道理。

不过对于 Multi-Agent 的记忆设计来说,还是有一些学习价值的。首先就是多智能体系统里的 Agent 往往有不同的角色设计,感觉就很类似 MIRIX 那篇文章的思路(把记忆智能体拆成多个角色设计),所以在各种多智能体场景里,记忆 Agent 的设计又千变万化,很多换着玩的方法。

  • 我大概想到一个比较简单的思路设计:在现有的 Multi-Agent 框架里,单独设计一个记忆智能体参与到多个智能体的交互之中,它相当于扮演“协调者”的角色,只不过是负责协调 memory 分配而不是任务的分配。那么这个 memory agent 就可以单门设计,通过 RL 或者别的一些方法都可以。

  • 另外就是结合成功与失败,构建一个包含“正例”和“反例”的双重记忆库。在规划或执行时,系统不仅检索“应该怎么做”,也检索“需要避免什么”。协调器可以据此评估计划的风险,任务智能体可以避免常见的工具使用误区。

  • 而且,多智能体系统的优点不是体现在智能体的协作联系吗?那是不是也可以设计一种方法,允许一个任务智能体在遇到困难时,主动向其他智能体(甚至是同类型智能体)的“个人经验库”发起查询?


文章作者: Cyan.
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Cyan. !
评论
 本篇
LEGOMem:Modular Procedural Memory for Multi-agent LLM Systems for Workflow Automation LEGOMem:Modular Procedural Memory for Multi-agent LLM Systems for Workflow Automation
论文提出了LEGOMem,一个用于为Multi-Agent架构设计的模块化记忆系统。通过对多智能体系统中的各类角色设计模块化记忆,提高整个系统的持续协调与规划能力。
2025-11-22 Cyan.
下一篇 
Mem-α: Learning Memory Construction via Reinforcement Learning Mem-α: Learning Memory Construction via Reinforcement Learning
论文提出了Mem-α,一个用强化学习搭建的智能体记忆框架,用以解决直接使用语言模型处理工具所带来的信息丢失、效率低下等问题。传统方法过于依赖预设指令与工具,Mem-α通过交互与反馈,采用GRPO训练智能体有效管理复杂记忆系统。
2025-11-01 Cyan.
  目录