论文旨在解决现有大模型系统在持续学习、记忆机制评估上的空白。已有bench主要关注模型对长文本的理解能力,缺乏实际反馈,无法衡量系统从长期交互中持续改进的能力。为此,论文通过“LLM-as-user”批量生成反馈日志并检验系统吸收反馈、更新记忆后的持续表现。
2025-10-28