LEGOMem：Modular Procedural Memory for Multi-agent LLM Systems for Workflow Automation

无标签

发布日期: 2025-11-22

文章字数: 2.6k

原文链接：https://arxiv.org/abs/2510.04851

本文提出LEGOMem，一个面向多智能体系统的模块化过程记忆框架，旨在通过结构化的记忆构建、检索与分配机制，提升系统的规划、协调与执行能力。

Background & Motivation

现在基于 LLM 的智能体被广泛应用于自动化复杂多步骤工作流，如文档编辑、邮件处理和日程安排等。多智能体系统逐渐成为主流架构，一般由一个中心协调器负责任务规划与分发，多个任务智能体负责执行具体子任务。

论文指出，现有的大多数多智能体系统是无状态的：每次任务都从头开始执行，不利用历史执行经验。这限制了系统在复杂工作流中持续学习和提升的能力。而面向单智能体的记忆机制可能无法有效泛化到多智能体系统上。

多智能体系统相比单智能体，在记忆这一方面主要面临的问题有三点：

缺乏过程记忆：无法从成功的历史轨迹中提取可复用的任务分解与执行模式。
角色记忆不匹配：协调器需要高层次规划记忆，而任务智能体需要具体工具使用记忆。
记忆检索粒度不灵活：现有方法如 Synapse 和 AWM 主要面向单智能体，多智能体系统中不同角色的记忆需求不同，记忆粒度也不一致，适应性不足。

Method

LEGOMem 的核心思想是：将成功的工作流轨迹像乐高积木一样，分解成标准化的、可重用的记忆模块，并在执行新任务时，将这些模块灵活地分配给系统中不同角色的智能体，以增强其规划和执行能力。

它的方法流程主要分为两个阶段：

阶段一：离线记忆构建

这个阶段的目标是从成功的任务执行轨迹中，提炼出结构化的记忆单元。

输入：成功完成的任务日志。日志记录了从协调器生成计划、分配任务，到各个任务智能体调用工具、获取观察结果的全过程。
记忆单元提取：使用LLM将原始日志转化为两种标准化的记忆单元：
- 完整任务记忆以及子任务记忆。前者包含任务的全局视角，为协调器配置，包含协调器指定的步骤计划、子任务执行序列、任务最终输出。任务关键事项总结等。后者聚焦于单个 Agent 的具体操作，包含具体执行步骤，环境返回的结果观察摘要等。
记忆存储与索引：
- 所有记忆单元被存入一个向量数据库（如 FAISS）。对于完整任务记忆，使用任务描述的嵌入向量进行索引；对于子任务记忆（在 Dynamic 和 QueryRewrite 变体中），会为每个类型的任务智能体建立独立的子记忆库，并使用子任务描述的嵌入向量进行索引。

阶段二：在线记忆增强推理

当有新任务输入时，系统会检索并分配相关记忆，引导智能体执行。

记忆检索与分配：
- 协调器会根据新任务的描述，从全局记忆库中检索最相似的 K 个完整任务记忆。这为协调器提供了“前人”是如何分解和解决类似任务的完整蓝图。任务智能体则根据其不同的变体，分配不同记忆：
  - Vanilla LEGOMem：直接从协调器检索到的完整任务记忆中，“拆出”对应的子任务记忆，静态地预分配给各任务智能体。
  - LEGOMem-Dynamic：不预分配。当协调器动态生成一个子任务并分配给某个智能体（如A_i）时，系统实时地以该子任务描述为查询，在A_i的专属子记忆库中检索最相关的记忆。
  - LEGOMem-QueryRewrite：在任务开始前，先用一个LLM根据检索到的完整任务记忆，为新任务草拟一个步骤计划 π_draft，然后基于这个计划中的每个预期子任务描述，提前为各个智能体检索好相关子任务记忆。
记忆增强的执行循环：
- 协调器利用获得的完整任务记忆进行初始规划和动态规划（包括重新规划）。

整个流程如下图所示：

论文为了探究子任务检索粒度对多智能体系统的影响，提出了上文所述的对于任务智能体的三种变体。LEGOMem-Dynamic 和 LEGOMem-QueryRewrite 的工作流程如下图所示。

后续实验显示，当仅使用任务代理级记忆且任务代理采用小型语言模型时，LEGOMem-Dynamic 和 LEGOMem-QueryRewrite 的性能均优于标准 LEGOMem 。

Experiment & Results

数据集：OfficeBench，包含300个办公自动化任务，分为L1（单应用）、L2（双应用）、L3（多应用）三个难度级别。评估指标为任务成功率。
智能体配置：
- 分为三个配置：**(1) LLM 团队：全部使用 GPT-4o；(2) 混合团队：协调器用 GPT-4o，任务智能体用 GPT-4o-mini；(3) SLM 团队**：全部使用GPT-4o-mini
基线方法：No Memory、Synapse（全轨迹记忆）、AWM（子任务序列记忆）

可以看到，所有 LEGOMem 变体均显著优于基线，平均提升约12-13%的成功率。- 轻量版 LEGOMem 表现最佳，说明模块化记忆结构本身已足够有效。并且使用 LEGOMem 后，SLM 团队甚至能超越无记忆的 LLM 团队。

而在 LEGOMem 框架中，记忆究竟是为协调器更重要，还是为任务智能体更重要？论文在相同的任务（OfficeBench 基准）和相同的智能体团队（全 LLM 团队）下，只改变记忆的分配方式做了消融研究。评估指标：

(a) 平均执行步骤数：完成一个任务需要多少个操作步骤（如工具调用）。步骤越少，代表效率越高。
(b) 平均步骤失败率：智能体发出的操作指令中，出错（如调用错误工具、参数错误）的比例。失败率越低，代表执行可靠性越高。

可以看到，对于所有难度级别（L1-L3）的任务，任何形式的记忆都比没有记忆更高效（步骤更少）。仅协调器记忆 的表现远优于 仅任务智能体记忆，并且非常接近 完整LEGOMem 的效果。

因此，协调器记忆主导效率提升，它通过优化宏观规划来减少不必要的步骤；而任务智能体记忆在复杂场景下作为补充，通过提升局部执行精度来进一步优化效率。

与步骤数类似，任何形式的记忆都显著降低了步骤失败率，使执行过程更加稳定可靠。仅协调器记忆 在降低失败率方面效果非常显著，而 仅任务智能体记忆 的效果相对较弱。

因此，协调器记忆通过避免规划错误来提升可靠性，而任务智能体记忆通过避免操作错误来提升可靠性。两者结合，实现了最鲁棒的执行。

My Thoughts

首先这篇文章感觉实验论文就不太充分，主对比验证实验只做了一组。另外对比的基线方法也是只有简单的单 Agent 记忆构建方法，没有对比一些比较新的 Agent 记忆框架方法（比如 Mem0,、A-Mem 等）。数据集也不充分。

而且方法设计也很简单，感觉应该和 RAG 进行一下对比，看看是不是构建记忆阶段的记忆在真正发挥作用，不然又是一篇没啥意义的文章，还不如用静态 RAG 去做。就实验 Benchmark 来看，我感觉 RAG 没准效果更好，，

而且我感觉这篇文章根本不太涉及记忆更新啊，记忆库是在离线阶段一次性构建的，之后在整个实验过程中是静态的。它不具备在线更新或自我演进的能力。记忆库的规模和质量完全依赖于初始的“训练集”，推理过程不继续更新，感觉有点鸡肋。

还有一点就是，LEGOMEM 的记忆库完全由成功的任务轨迹构建。然而从失败中汲取教训同样至关重要，当前的框架无法避免重复掉入同一个陷阱，这点是之前谷歌那篇 ReasoningBank 探讨过的，我感觉比较有道理。

不过对于 Multi-Agent 的记忆设计来说，还是有一些学习价值的。首先就是多智能体系统里的 Agent 往往有不同的角色设计，感觉就很类似 MIRIX 那篇文章的思路（把记忆智能体拆成多个角色设计），所以在各种多智能体场景里，记忆 Agent 的设计又千变万化，很多换着玩的方法。

我大概想到一个比较简单的思路设计：在现有的 Multi-Agent 框架里，单独设计一个记忆智能体参与到多个智能体的交互之中，它相当于扮演“协调者”的角色，只不过是负责协调 memory 分配而不是任务的分配。那么这个 memory agent 就可以单门设计，通过 RL 或者别的一些方法都可以。
另外就是结合成功与失败，构建一个包含“正例”和“反例”的双重记忆库。在规划或执行时，系统不仅检索“应该怎么做”，也检索“需要避免什么”。协调器可以据此评估计划的风险，任务智能体可以避免常见的工具使用误区。
而且，多智能体系统的优点不是体现在智能体的协作联系吗？那是不是也可以设计一种方法，允许一个任务智能体在遇到困难时，主动向其他智能体（甚至是同类型智能体）的“个人经验库”发起查询？