NeurIPS2024|哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

2024-12-06 17:37

NeurIPS2024|哈工深提出新型智能体Optimus-1，横扫Minecraft长序列任务

本篇论文的工作已被NeurlPS（ConferenceonNeuralInformation ProcessingSystems）2024会议接收。本文主要作者来自哈尔滨工业大学(深圳)邵睿团队，合作单位为鹏城实验室。其中，第一作者李在京就读于哈尔滨工业大学(深圳)计算机学院，研究方向为开放世界智能体和多模态学习。

在Minecraft中构造一个能完成各种长序列任务的智能体，颇有挑战性。现有的工作利用大语言模型/多模态大模型生成行动规划，以提升智能体执行长序列任务的能力。然而，由于这些智能体缺乏足够的知识和经验，面对Minecraft中复杂的环境仍显得力不从心。为此，本文提出了一个新颖的智能体框架——Optimus-1，该框架结合结构化知识与多模态经验，旨在赋能智能体更好地执行长序列任务。

. 论文题目：Optimus-1:HybridMultimodalMemoryEmpoweredAgentsExcelinLong-HorizonTasks

.论文链接：https://arxiv.org/abs/2408.03615

.项目主页：https://cybertronagent.github.io/Optimus-1.github.io/

.代码仓库：https://github.com/JiuTian-VL/Optimus-1

现有的MinecraftAgents有哪些局限性？

1.对结构化知识缺乏探索。Minecraft中充满了丰富的结构化知识，例如工具的合成规则（一根木棍和两块铁锭可以合成一把铁剑），以及不同层级的科技树（木材→石器→铁器→金器→钻石）等。这些知识有助于智能体做出合理的规划，一步一步获取完成任务所需的材料和工具。然而，现有的智能体缺乏必要的知识，导致他们做出长序列规划的能力受限。

2.缺乏充足的多模态经验。过往的经验对帮助人类完成未曾遇见的任务具有重要作用，同样，智能体也能借助历史经验在面对新任务时作出更加精准的判断与决策。然而，现有的智能体在多模态经验的积累与总结上存在缺陷，未能有效整合视觉、语言、动作等多方面的经验，限制了其在复杂任务中的决策能力和适应性。

为了解决上述挑战，我们设计了一个混合多模态记忆模块，将结构化知识和多模态经验整合到智能体的记忆机制中。类似于知识与经验在指导人类完成复杂任务中的重要作用，智能体在规划阶段借助结构化知识生成可行的任务计划，而在反思阶段则利用多模态经验对当前状态进行判断，并做出更加合理的决策。在此基础上，我们提出了智能体框架Optimus-1。在混合多模态记忆的赋能下，Optimus-1在67个长序列任务上实现了当前最先进的性能，并缩小了与人类水平基线的差距。

摘要：

构建通用代理是人工智能领域的一个长期愿景。现有的代理在许多领域取得了显著进展，但它们仍然难以在开放的世界中完成长期任务。我们将此归因于缺乏必要的世界知识和经验，无法指导代理完成各种长期任务。在本文中，我们提出了一种混合多模存储模块来解决上述挑战。它1）将知识转换为分层有向知识图，允许代理显式表示和学习世界知识，2）将历史信息总结为抽象多模式经验池，为代理提供丰富的上下文学习参考。在混合多模式内存模块之上，多模式多模块代理Optimus-1由Minecraft中的专用知识导向规划器和经验驱动反射器构建，有助于在面对长期任务时进行更好的规划和反思。广泛的实验结果表明，Optimus-1在具有挑战性的长期任务基准测试中明显优于所有现有代理，并在许多任务上表现出接近人类水平的性能。此外，我们引入了各种多模态大语言模型（MLLM）作为Optimus-1的支柱，实验结果表明，Optimus-1在混合多模态存储模块的帮助下表现出很强的泛化能力，在许多任务上都优于GPT-4V基线。广泛的实验结果表明，Optimus-1朝着具有类人性能水平的通用代理迈出了重要一步。