语言代理的元任务规划 Meta-Task Planning for Language Agents-CFANZ编程社区

Meta-Task Planning for Language Agents

全文摘要

这本书是《Preprint. Meta-Task Planning for Language Agents》。该书由Cong Zhang等人撰写，介绍了语言模型代理的元任务规划（Meta-Task Planning）方法。该方法旨在简化复杂任务的规划过程，并将其分解成一系列子任务或元任务。

在当前神经语言模型的快速发展下，大型语言模型代理成为实现人工智能通用性的一种有前途的方法。然而，在现实世界中执行任务时，有效的规划对于成功至关重要。因此，社区一直在追求有效规划的方法。目前的规划方法通常将任务翻译成可执行的动作序列。但是，确定可行或最优序列对于复杂的任务来说仍然具有挑战性，特别是需要组合长链异质动作的任务。

该文提出的元任务规划方法是一种零样本方法，适用于协作型多代理系统中的语言模型代理。它通过将复杂任务分解成一系列子任务或元任务来简化任务规划过程。每个元任务都被映射到可执行的动作上。该方法已在两个严格的基准测试（TravelPlanner和API-Bank）上进行了评估，并取得了显著的结果。

总的来说，该书介绍了元任务规划方法及其在协作型多代理系统中的应用。如果您对人工智能通用性和语言模型代理感兴趣，那么这本书将是您不可错过的一本好书。

章节速读

第1页

Meta-Task Planning for Language Agents - Abstract

该章节讲述了一种名为Meta-Task Planning（MTP）的方法，它是一种零样本学习方法，用于协作式基于大型语言模型的多智能体系统中的任务规划。传统的任务规划方法通常将任务转换为可执行的动作序列，但是对于复杂的任务，需要组合长链异质动作，因此仍存在挑战。MTP通过将复杂任务分解成子任务或元任务的层次结构来简化任务规划，每个元任务都被映射到可执行的动作上。在两个严格的基准测试中，TravelPlanner和API-Bank上进行了评估，结果表明MTP比最先进的基线方法成功率高约40%，并在API-Bank上优于LLMapi-42 with ReAct约14%。这展示了将大型语言模型与多智能体系统集成的巨大潜力。

第1页

1 Introduction

该章节讲述了一种名为Meta-Task Planning（MTP）的零训练规划方法，用于协作式大型语言模型（LLM）的多代理系统。MTP通过将复杂任务分解成一系列可完成的子任务或元任务来简化任务规划。具体来说，MTP由一个任务分解经理代理和一组执行器代理组成。任务分解经理代理负责任务级别的规划，将任务分解成一个图，其中每个节点代表一个特定的元任务，边描绘了任务之间的依赖拓扑关系。然后，每个元任务被分解成一系列函数调用，即步级别规划和执行，通过执行器代理实现。执行器代理可以利用现有的规划技术，如ReAct[11]，来帮助元任务的完成。MTP可以被视为一种框架，它扩展了单个LLM代理的能力，通过配备规划核心，从而将其转化为多代理合作。在受限制的情况下，例如预算有限的情况，MTP将约束分为“局部”和“全局”类型。局部约束由执行器代理在元任务执行期间管理，而全局约束则与其他变量一起考虑。为了提高成功率和稳定性，MTP还引入了一个监督代理来总结中间元任务结果，并且有一个交付者代理来产生最终结果。与现有规划方法中常见的玩具任务或谜题不同，该章节评估了MTP在两个真实世界应用中的表现：行程规划和日常工具使用。实验结果显示，MTP在两个基准测试上取得了显著的表现提升。具体而言，MTP在TravelPlanner[26]上的成功率为约50%，比最初报告的0.6%有了显著增长。它还在API-Bank[27]上超越了LLMapi-4和ReAct，绝对改进约为12%。据我们所知，MTP是第一个针对协作式LLM多代理系统的计划和执行方法，可以解决复杂的现实世界任务。

第2页

2 Preliminaries

该章节讲述了基于语言模型的代理系统（LLM-based agent）的基本构成要素以及其功能特点。这种代理系统利用语言模型作为认知核心，能够执行对话、任务执行、逻辑推理等操作，并展现出一定的自主运作能力。该系统的组成包括五个关键元素：语言模型实例（LLM）、函数集合（Fn）、角色（R）、状态（S）和通信模块（C）。其中，语言模型实例是代理系统的核心，用于推理、规划和决策制定。函数集合则是代理系统可调用或执行的动作集合。角色则指定了代理系统在特定环境中的职责和作用。状态则是代理系统已知的知识和内部进程的总和，随着代理系统学习新信息并与周围环境交互而发生变化。最后，通信模块使代理系统能够与其他代理系统交换信息或知识。

此外，该章节还介绍了基于语言模型的多代理协作系统的基本构成。该系统由多个代理组成，每个代理都有特定的角色并专门负责执行特定的任务，例如任务分解。这些代理共同合作，以实现一个共同的目标。

第2页

3 Meta-Task Planning

该章节讲述了如何通过MTP框架来管理并执行复杂的任务，特别是在建设或制造等领域中面临的挑战。该框架由一个经理代理负责分解复杂任务为更小、更容易管理的子任务，即元任务。这些元任务随后被转换为一系列异构工具使用的动作序列，由一组执行者代理执行，这个过程被称为步进式规划和执行。此外，MTP还引入了一个监督代理来促进共享合成的元任务结果，以及一个交付代理来整合所有元任务的结果，以满足全局约束条件并最终实现任务目标。因此，MTP提供了一种结构化的方法来协调和执行协作LMM系统中的零次规划。

第3页

3.1 The Collaborative Multi-Agent System Design - 3.1.1 Manager Agent

该章节讲述了协作式多智能系统设计中的经理代理。首先，经理代理需要将复杂的任务分解成一系列相互关联的子任务，并且要准确识别这些依赖关系。其次，经理代理还需要根据预算限制或特定交通需求等约束条件来做出明智的任务分配决策。此外，经理代理还需要确定局部和全局约束，以便成功完成复杂任务。对于局部约束，只需基于单个子任务的结果即可满足；而对于全局约束，则需要基于多个子任务的结果才能满足。经理代理通过内部知识来识别潜在的约束并将其分类为局部和全局约束，确保了MTP的零样本属性。最后，经理代理采用工具列表技术来匹配合适的执行器，从而完成每个子任务。总之，经理代理在协作式多智能系统中扮演着重要的角色，它能够有效地管理和协调各个子任务，使得整个系统的运行更加高效和可靠。

第4页

3.1.2 Executor Agent

该章节讲述了Executor Agent在任务分配中的作用以及其设计思路。首先，Manager Agent会将每个元任务分配给Executor Agent，这些Executor Agent可以访问各种异构工具（如函数）。Executor Agent的任务是创建一系列动作序列来完成分配的元任务，同时遵守本地约束Cl。这个过程显著降低了规划复杂性，因为Executor Agent专注于一个特定的、明确的任务，具有清晰的要求和限制条件。因此，应用现成的单代理规划方法将任务映射到执行序列是可行的。图2（b）展示了Executor Agent的概念提示设计。由于Executors之间的功能差异，需要针对每个Executor采用定制化的设计方法，根据它们可用的具体工具进行设计。总之，该章节重点介绍了Executor Agent在任务分配中的角色和设计思路，强调了它的重要性以及如何实现它的可行性。

第4页

3.1.3 Supervisor Agent

该章节讲述了Supervisor Agent在元任务中的作用以及其如何通过参考邻近元任务的结果来精炼Ti。在分解主任务后，只有模糊的目标（如“在城市B找一家酒店”）和元任务之间的依赖关系（如“搜索飞往纽约的航班”→“在城市B找到一家酒店”）被识别出来。为了有效地执行Ti，其输入参数需要精确的规格说明。例如，“在城市B找一家酒店”的输入必须根据前一个元任务（如“搜索飞往纽约的航班”）的结果正确更新为“在约翰·F·肯尼迪国际机场附近的纽约找到一家酒店”。为了解决这些细微差别并消除歧义，Supervisor Agent在Ti开始之前就发挥作用。它重写了Ti，并从邻近元任务中合成输出结果。这确保了所有必要的参数都被包括且准确实例化。该章节还介绍了邻居的概念，即与Ti直接相关的元任务集合。此外，该章节还讨论了元任务完成时应遵循的局部约束条件，以及如何保证所有信息通过“消息传递”机制得到保留，从而使正确结果从先前提到的元任务递归传播到Ti。最后，该章节还提出了关于Supervisor Agent设计的问题，并给出了相应的解决方案。

第5页

3.1.4 Deliverer Agent

该章节讲述了Deliverer Agent的作用和设计逻辑。Deliverer Agent的主要目标是综合所有元任务的结果，并确保与全局约束相一致。这是非常关键的，因为只有在所有元任务结果可用之后才能有效地处理全局约束。因此，Deliverer Agent处于独特的地位来管理这些约束，确保最终结果全面满足所有全局约束。该章节还介绍了Deliverer Agent的设计逻辑，如图2（d）所示。此外，该章节还提供了所有代理的详细提示设计和技术介绍，可以在附录D中找到。

第5页

3.2 Hierarchical Task Planning and Execution

该章节讲述了任务规划与执行中的层次化分解方法。首先，对于复杂的任务，通过将其分解成一系列相互依赖的子任务来降低其复杂度。这些子任务被称为元任务，它们之间的关系可以用一个有向图来表示，这个图称为元任务图。在元任务图中，每个节点代表一个元任务，每条边代表两个元任务之间的依赖关系。

接下来，为了更好地理解和监控任务执行的过程，需要对元任务进行进一步的分解，将其转化为可执行的动作序列。这一步可以利用现有的规划方法，如ReAct等，根据元任务的要求和约束条件，将其分解为一系列具体的动作序列。

最后，为了确保任务执行的有效性和可靠性，需要建立一个交互式的界面，以便人类监督和干预任务执行的过程。同时，还需要记录任务执行的结果和效果，以便后续分析和优化任务规划和执行的方法。

总之，该章节介绍了任务规划与执行中的层次化分解方法，包括元任务图的构建、元任务的进一步分解以及交互式界面的设计等方面。这些方法可以帮助我们更好地管理和控制任务执行的过程，提高任务完成的效率和质量。

第6页

4 Experiments

该章节讲述了如何评估多任务规划（MTP）在实际场景中的应用效果。作者们通过在行程规划和日常工具使用的领域中测试MTP来验证其有效性。为了针对每个基准进行微调，他们使用了训练数据集作为验证集，并直接将其应用于测试集中。作者们还探讨了不同约束条件下的MTP表现，并提供了最终通过率的数据表格。此外，作者们指出多次试验可能会提高性能，并将在代码被接受后公开发布。

第7页

4.1 Experiment Setup - 4.1.1 Benchmarks

该章节讲述了两个不同的基准测试，分别是TravelPlanner和API-Bank。TravelPlanner旨在评估语言代理在旅游规划方面的能力，包括收集必要信息和创建个性化旅行计划的能力。该基准测试分为四个主要指标，其中最终通过率是最重要的评价标准。API-Bank则专注于评估大型语言模型的工具使用能力，重点关注日常生活中常用的API，如电子邮件等。该基准测试也分为三个难度级别，其中第三级是最具挑战性的。在实验中，我们选择了第三级来评估代理的规划能力。该基准测试基于准确性和ROUGE得分进行评估，其中准确性指标衡量了用户查询的正确性，而ROUGE指标则评估了从这些API调用中生成的响应。此外，我们还引入了完整性指标，以更好地评估任务执行情况。正确性指标可能无法完全捕捉代理的表现，因为最小限度的API调用可能会人为地提高分数。完整性指标测量了完成任务所需的总API调用中的唯一正确API调用的比例，从而解决了正确性指标的局限性，并确保更准确地评估代理的有效性。

第8页

4.2 Result Analysis - 4.2.1 Result Analysis for TravelPlanner.

该章节讲述了研究团队在TravelPlanner任务上的实验结果分析。通过对比不同方法的表现，研究团队发现MTP（Meta-Task Planner）显著优于所有基准方法，无论是否包含非常规提示。当提示存在时，LMMapi4增强版MTP实现了平均最终通过率为42.68％，而基准线仅为2.92％。这表明集成大型语言模型（LLMs）与多代理系统具有潜力，是未来LLM基础代理系统研究的一个有前途的方向。

在没有提示的情况下，设置类似于[26]所述的情况，其中基准模型的最佳最终通过率达到了0.56％，与原始研究的结果一致。在这种情况下，MTP显着提高了平均最终通过率，超过了[26]报告的最佳基线结果。值得注意的是，MTP在使用提示和不使用提示的情况下都显著优于标准规划器（SP）。SP作为一个决策框架，所有完成行程所需的所有元素，如酒店、航班和餐厅的多个选择，都是预先提供的；因此，SP代理只需从这些预定义集合中选择最合适的选项来构建最终行程。这使得SP相对于MTP和其他基准更加简单。然而，MTP仍然取得了更高的最终通过率，这一发现可能看起来不合常理，但可以通过以下方式解释：MTP的有效部署了分而治之策略来管理约束条件。通过在执行元任务期间解决许多本地约束条件，MTP大大降低了代理在制定最终行程计划时遇到的复杂性。表3展示了各个约束的详细通过率，表明MTP在所有约束方面均显著优于LLMapi4+ReAct+CoT。然而，当配备MTP时，LLMapi3.5不如LLMapi4有效，这可能是由于模型性能较差。我们在附录E中提供了每个难度级别的示例结果，在附录C中还提供了每个难度级别（易于、中等、困难）的详细结果。

第9页

4.2.2 Result Analysis for API-Bank.

该章节讲述了MTP（Model-based Task Planning）在API-Bank上的结果分析。首先，与现有基线相比，MTP显著提高了LLMapi4和LLMapi3.5在所有关键评估指标上的性能。特别是，在原始论文中报道的最佳性能实现了70％的成功率，而我们的重现实现略微超过了71.48％。因此，MTP通过至少14％的明显优势超越了参考方法[27]，从而脱颖而出。此外，MTP在其他关键领域表现出色，例如任务完整性方面达到了令人印象深刻的64.08％，并显着减少了冗余工具交互次数，仅计数为七个。这种稳健的表现强调了MTP重新定义先进语言模型能力的潜力。我们在附录E中提供了每个难度级别的情境化结果。

第9页

5 Literature Review for Language Model Agent Planning

该章节讲述了语言模型（LLMs）在代理规划中的应用和发展。LLMs作为一种新兴的人工智能技术，已经在推理、规划、指令遵循和工具使用等方面展现出显著的智能表现。其中，规划是与外部环境交互的重要能力之一，包括组织思维轨迹、设定目标和确定实现目标的步骤等。一些研究关注于任务分解，旨在通过分治策略解决复杂任务。此外，还有一些方法探索利用反思和改进策略来增强LLM的规划能力。同时，外部规划器也被引入到LLM的规划过程中，以帮助提高其规划效率和准确性。

针对不同类型的代理，已经开发出了许多策略来利用LLM的潜力进行具体规划。例如，Web代理模拟人类的网络浏览行为，通过基于强化学习的规划或轨迹规划与Web环境进行交互。通用工具代理需要与大量的API或工具进行交互，因此其规划过程更加具有挑战性。解决方案通常依赖于各种任务分解、自我修正和领域推理策略。其他特定任务的代理则专注于设计复杂的规划策略，如树搜索和贝叶斯自适应MDPs。多代理系统则寻求通过组合多个强大的LLM代理来解决更复杂的现实世界任务。然而，现有的解决方案主要集中在解决整合异构代理所带来的复杂性问题，而对于这些代理之间的规划策略尚未得到充分考虑。

相比之下，本文提出的多任务规划（MTP）算法专注于为多代理系统设计通用且稳健的规划策略。虽然LLMapiSwarm与MTP共享相似的概念，但前者侧重于通过复合图可视化多代理协作以辅助提示调优，而MTP则是专门为具有多个协作代理的系统设计的规划算法。

第9页

6 Conclusion

该章节介绍了Meta-Task Planning（MTP）这一创新性的零样本方法论，用于协作基于LLM的多智能体系统。MTP通过将复杂的任务规划分解成可执行动作的元任务层级来简化复杂任务规划。在TravelPlanner和API-Bank两个基准测试中，MTP实现了平均成功率约42％，比初始0.6％有了显著提高，并在API-Bank上优于LLMapi-4与ReAct相比提高了14％。然而，当前的设计仍然需要从执行者代理那里获取人类输入。增强MTP，使管理代理能够自主设计执行者的提示，可以优化执行器创建，加速MTP的实际应用。未来的研究应专注于通过先进的提示优化开发更多自主代理，如最近文献[67]所建议的那样。这种方法有望改进MTP的功能并扩大其适用性，无需人工干预，从而实现更智能和自我维持的多智能体系统。

第10页

References

该章节讲述了大型语言模型（LLM）在规划方面的应用。文章首先介绍了LLM的基本概念和发展历程，指出其在自然语言处理领域的广泛应用。接着，文章详细阐述了LLM在规划任务中的作用，包括自动规划、智能推荐和自主决策等方面的应用。同时，文章还探讨了LLM在解决复杂问题方面的能力，如链式思维推理和自学习等技术。此外，文章还提到了LLM在教育、医疗和金融等领域中的潜在应用，以及未来的发展方向和挑战。总之，该章节深入浅出地介绍了LLM在规划方面的应用，对于了解LLM技术和未来发展趋势具有重要的参考价值。

第15页

A Limitations

该章节讲述了MTP（Mind-Transferring Protocol）中的局限性问题。尽管MTP已经取得了显著的性能表现，但是当前的执行者代理架构仍然需要人类输入。因此，MTP有机会通过让管理代理自主地生成执行者代理的提示来实现显著的增强，从而优化执行者创建的过程。这样的进步可以显著加速MTP的实际应用并提高其效率。

在这一章节中，作者指出了MTP目前存在的局限性，即执行者代理仍需要人类干预才能完成任务。这种依赖于人类输入的情况限制了MTP的应用范围和效率。然而，作者也提出了一个解决方案，即让管理代理自主地生成执行者代理的提示，从而减少或消除对人类输入的需求。这种方法可以使MTP更加智能化和高效化，同时也可以扩大其实际应用的范围。

总的来说，该章节讨论了MTP的局限性和未来的发展方向。虽然MTP已经有了很好的表现，但它仍有改进的空间。通过让管理代理自主地生成执行者代理的提示，MTP可以进一步提高其效率和实用性，这也将有助于推动人工智能技术的发展。

第15页

B Broader Impacts

该章节探讨了基于LLM（Language Model）的代理在帮助人类解决复杂任务方面的应用。虽然这种自动化可以提高生产力并专注于高级任务，但它也引发了透明度和可解释性的问题。LLM的不确定性可能会模糊决策过程，这可能降低人们对敏感应用程序的信任，在这些应用程序中，了解AI的推理过程至关重要。此外，通过自动化通信，存在减少重要人际互动和关系风险的风险，这对于专业环境中的质量交流和关系是至关重要的。因此，部署这些代理必须考虑伦理问题和可解释性的机制，以减轻这些风险，确保它们积极、负责任地促进社会和技术进步。

第15页

C More Results - C.1 Result for TravelPlanner with Hint for Each Difficulty Level.

该章节讲述了如何通过分析不同难度级别的旅行规划任务的数据来评估旅行规划系统的性能。作者首先介绍了实验设置，包括使用的算法和技术以及测试数据集的选择。接着，作者分别分析了在Easy、Medium和Hard三个难度级别下，旅行规划系统的表现情况，并给出了相应的数据表格和图表。在每个难度级别下，作者都列举了不同的指标，如最终交付率、正确率等，以便读者全面了解系统的性能表现。

此外，作者还讨论了一些与旅行规划相关的主题，例如常见常识、硬性约束等，这些主题也对旅行规划系统的性能产生了影响。最后，作者总结了研究结果并提出了一些未来的研究方向，以便进一步提高旅行规划系统的性能。

总的来说，该章节详细介绍了如何通过数据分析来评估旅行规划系统的性能，并提供了一些有价值的见解和结论。对于那些对旅行规划系统感兴趣的人来说，这是一篇非常有用的文章。

第16页

D Prompt and Instructions for Each Agent - D.1 TravelPlanner - The Manager Agent:

该章节讲述了如何设计任务管理助手的任务分解模板。在任务分解中，需要先了解可用工具的能力和限制，然后根据用户请求分析任务并确定执行顺序。接下来，将任务分解成低粒度的子任务，并填写JSON模板中的相应字段。每个子任务都包含五个信息：内容、工具、参数、所需数据和数据。其中，“工具”列表指定了每个步骤所需的工具，而“参数”列表则指定了传递给工具的消息格式。此外，还需要定义每个子任务的本地约束和全局约束。本地约束是特定于每个子任务的约束，而全局约束则是跨越所有子任务的约束。最后，输出一个基于用户查询的重要全球约束。

第18页

The List of Executors for The Manager Agent:

该章节讲述了一个名为Manager Agent的程序中包含的多个Executor，每个Executor都有不同的功能和用途。其中包括可以搜索不同城市之间交通方式的search_cross_city_transport_agent Executor，它可以搜索航班、自驾游和出租车等多种交通方式，并根据用户提供的出发日期和目的地，分析是否是单程或往返旅行。还有可以搜索城市旅游信息的search_city_hospitality_agent Executor，它可以搜索城市的景点和餐厅等旅游信息。此外，还有一个可以搜索指定州内所有城市的search_cities_in_state_agent Executor，以及可以搜索城市住宿信息的search_city_accommodation_agent Executor，它需要确定住宿所需的天数并计算出行程中的夜晚数量。

这些Executor都提供了相应的参数和查询格式，用户可以根据自己的需求选择合适的Executor进行查询。需要注意的是，这些Executor的功能都是为了方便用户的旅行和旅游计划，但不能用于其他目的。

第19页

The Executor Agents: - # Prompt for Search Cities In State Agent

该章节讲述了搜索城市代理的功能列表和规则。在使用工具之前，需要说明使用工具的原因并提及从以前使用的工具中获得的信息以及接下来要获取的信息。如果无法提供基于用户查询的有用响应，请考虑使用其他工具来提供替代信息。不应根据内部知识做出任何假设。收集所需的所有信息后，请输出基于用户查询的信息。只应提供基于用户查询的有用响应。对于每个项目的结果，需要确保列出所有的特征。如果输入是带有功能点的项目，则必须确保列出所有功能点。如果输入是CSV，则必须确保每个列代表项目的每个特征。不要错过每个特征的任何详细信息。输出格式如下面所示。如果多次使用工具，则必须输出多个搜索结果集格式。

第23页

The Supervisor Agent:

该章节讲述了任务重写助手的角色及其主要工作职责。任务重写助手负责简化执行任务的过程，其主要工作包括重写模板中的各个部分。其中，“content”是子任务的描述，格式为字符串；“tool”是对应任务所需的工具列表；“parameters”是每个代理所需步骤的参数列表，格式为列表。在“parameters”中，“message”的格式为字符串，系统会将其列表元素拼接并传递给代理。用户将基于此模板提供一个任务，通过获取之前任务的信息，可以进一步简化任务。需要注意的是，在重写任务时，请勿修改其他内容。此外，还提供了关于主查询的一些信息，这些信息可能有助于重写任务。

第23页

The Deliverer Agent:

该章节讲述了一个高效规划者如何根据提供的物品和查询信息制定详细的旅行计划。在制定计划时，需要优先考虑排名靠前的选项，同时满足所有的约束条件。此外，还需要分析常识约束，确保旅行计划合理且多样化，避免重复选择餐厅。最后，需要写出完整的旅行计划并遵守规定的格式。

第24页

***** Example****

该章节讲述了一个旅行计划的制定过程，包括了从Ithaca到Charlotte的行程安排，以及在Charlotte的住宿和用餐选择。这个旅行计划是根据预算和一些限制条件制定的，比如时间和交通方式等。旅行计划中包含了每个活动的时间和地点，以及推荐的餐厅和景点。同时，也提供了一些常识性的约束条件，例如不重复用餐场所的选择。整个旅行计划的设计非常详细，可以满足不同人的需求和喜好。这个章节可以帮助读者了解如何制定一个合理的旅行计划，以及如何在有限的预算内享受旅行的乐趣。

第24页

D.2 API-Bank - The Manager Agent:

该章节讲述了如何通过API-Bank中的Manager Agent来规划一系列子任务，以完成用户查询所需的任务。在任务分解过程中，需要根据用户的请求分析任务并确定每个任务应执行的顺序。一旦明确了任务序列，就需要将任务重写成完整的描述，考虑到它们之间的依赖关系。在这个JSON模板中，“main_task”是主要任务，即收集与交通（飞行和汽车）、餐饮、景点和住宿有关的有效信息，基于用户的查询。“sub_task”是你希望将任务分解成的子任务数量，可以根据实际需要调整。没有限制子任务的数量。每个子任务都包含五个信息：“content”、“agent”、“parameters”、“require_data”和“data”。其中，“require_data”是一个列表，列出了当前子任务所需的先前子任务的信息。一些子任务需要以前一个子任务的信息为基础。如果发生这种情况，则必须在“require_data”列表中填写先前的子任务。 “content”是子任务的描述，格式为字符串。在生成子任务的描述时，请确保添加了该子任务所依赖的子任务的名称。例如，如果子任务依赖于任务1搜索结果中的项A，则首先应该写出“基于任务1搜索到的项A”，然后再继续描述子任务。重要的是要指示依赖的子任务的名称。 “tool”是每个执行步骤所需的工具列表。工具名称应先写“retreiver_agent”，再写“executor_agent”。不应在工具名称前加上“functions.”。此列表不能为空。如果您无法想到任何工具来执行此子任务，请不要编写此子任务。 “parameters”是一个列表，指定每个工具所需的参数。在“parameters”列表中，“message”的格式是列表，将由系统连接并传递给工具。每个参数将在“parameter”列表中映射到“tool”列表中的每个工具。因此，如果您有n个工具，则必须具有n个参数对象。在填充JSON模板之前，请勿输入其他内容。必须在同一任务中同时使用Retriever Agent和Executor Agent。请首先输出COT，然后输出您的JSON。请确保两个代理都有自己的参数。

第?页

The List of Executors for The Manager Agent:

该章节讲述了执行者列表的概念及其在经理代理中的作用。在这个系统中，每个任务都需要一个或多个执行者来完成它。这些执行者被记录在一个名为“执行者列表”的文件中。这个列表包含了所有的可用执行者以及它们的能力和限制。

当一个任务需要被执行时，系统会根据任务的要求从执行者列表中选择合适的执行者。如果没有任何一个执行者能够满足任务的要求，则任务会被标记为无法完成。一旦选择了执行者，系统会将其添加到任务的状态中，并通知其开始执行任务。

此外，该章节还介绍了如何创建和管理执行者列表。管理员可以添加新的执行者到列表中，也可以删除已存在的执行者。同时，还可以修改执行者的属性，例如能力、优先级等。这样，管理员可以根据不同的需求灵活地配置执行者列表，从而更好地管理和调度任务。

总之，该章节详细阐述了执行者列表的作用和管理方式，对于理解和应用该系统的用户来说是非常重要的。通过了解执行者列表的基本概念和操作方法，用户可以更加高效地利用系统资源，提高工作效率。

第26页

The Executor Agents:

该章节讲述了执行任务所需要的工具检索器和执行器两个角色。首先介绍了工具检索器的角色和职责，其主要任务是根据查询关键词在库中搜索相关的工具。如果之前的任务已经完成了某些需求，则不需要再次搜索相应的工具。其次，讲述了执行器的角色和职责，其需要根据给定的任务信息和结果来解决问题，至少要使用一个工具完成查询。此外，还提供了前一任务的相关信息，以便更好地完成当前任务。最后，给出了具体的输出格式和函数列表供参考。通过这个章节的学习，读者可以了解如何使用工具检索器和执行器来完成任务，并且可以根据提供的信息来进行更准确的判断和决策。

第28页

该章节讲述了在解决查询问题时需要利用之前任务的内容和结果。作者强调了必须使用所有的工具来解决问题，不能依赖自己的内部知识。同时，作者也提醒读者要注意不要过度使用连接词，可以采用短语来替换连接词的使用。这一章的重点在于如何有效地利用前一阶段的信息和结果来解决当前的问题，同时也提到了避免陷入死循环的情况。通过本章节的学习，读者可以更好地掌握如何利用之前的任务信息和结果来解决当前的问题，提高工作效率和准确性。

第28页

# Function List for Tool Executing Agent

该章节讲述了API Bank系统中的四个工具执行代理函数列表，分别是UserWatchedMovies、EmailReminder、Calculator和TaxCalculator。其中，UserWatchedMovies用于获取用户观看电影列表，需要传入用户名参数；EmailReminder则用于发送邮件提醒用户会议详情，需要传入邮件内容、时间和地点以及收件人地址等参数；Calculator提供基本的加减乘除运算功能，需要传入公式参数；而TaxCalculator则是用于根据给定工资计算税收扣除金额。此外，还介绍了API Bank系统中的三个代理角色：Supervisor Agent、Deliverer Agent和Tool Retriever，分别负责消息传递、结果整合和工具池管理等功能。总体来说，该章节详细介绍了API Bank系统中各个组件的功能和作用，为读者深入了解该系统的运行机制提供了重要的参考。

第29页

E Result Demo - E.1 TravelPlanner - Demo-1(easy):

该章节讲述了一个名为TravelPlanner的应用程序的演示，演示了如何规划一次从Sarasota到Chicago为期三天的旅行。用户需要提供出发日期、目的地、预算等信息，应用程序会根据这些信息生成一份详细的旅行计划，包括交通方式、住宿、餐饮、景点等。在本次演示中，用户选择了一次从Sarasota到Chicago的旅行，时间为2022年3月22日至3月24日，预算为1900美元。应用程序生成了一份完整的旅行计划，包括第一天从Sarasota飞往Chicago，第二天游览芝加哥市区内的著名景点，第三天返回Sarasota的行程安排。每个活动都有具体的建议，如早餐、午餐、晚餐和住宿地点。整个旅行计划非常详细，可以帮助用户轻松规划一次愉快的旅行。

第29页

Demo-2(medium):

该章节讲述了一个旅行计划的任务，包括了从哈里斯堡到底特律的行程安排，预算以及希望品尝的法国和地中海美食。在第一天的行程中，读者可以了解到乘坐航班F3846320从哈里斯堡到达底特律的具体时间和到达后早餐、景点、午餐、晚餐和住宿等详细信息。第二天的行程则未被提及。整个旅行计划看起来非常充实且合理，同时也满足了读者对于食物口味的要求。

第30页

Transportation:-

该章节讲述了旅行者在底特律的第三天行程安排。早餐推荐了Mitalis Kitchen餐厅，午餐则可以去Rehmatullah's Hotel品尝当地美食。晚餐可以选择The Dosa King，这里提供美味的印度料理。住宿方面，提供了位于曼哈顿的一个干净舒适的卧室。此外，该章节还介绍了底特律的一些景点，如Belle Isle Aquarium、Detroit Riverfront Conservancy和Campus Martius Park等。最后，该章节提到了从底特律到哈里斯堡的航班信息，方便读者出行。

第30页

Demo-3(hard): - # Task:

该章节讲述了一个旅行计划的制定，包括了从西雅图到旧金山的行程安排、预算控制、住宿选择、美食体验以及交通方式等方面。在旅途中，旅行者们需要考虑如何在有限的时间内尽可能多地了解当地的文化和风景，同时还要保证宠物的安全和舒适度。通过精心的规划和准备，他们可以享受到各种不同的美食文化，例如墨西哥菜、法国菜、美国菜和地中海菜等。此外，他们还选择了自驾游的方式，避免了飞行带来的不便和费用。整个旅行计划充满了趣味性和挑战性，也给人们带来了很多启示和思考。

第30页

E.2 API-Bank - # Task: - # Result:

该章节讲述了一个名为API-Bank的任务，其中有一个演示任务是查询约翰的会议并发送邮件提醒他参加。在演示中，约翰有两个即将到来的会议，“与客户会面”将于2021年1月1日上午10点在1号会议室举行，包括玛丽和彼得作为参会者。“关于新项目的会议”于2021年1月2日上午10点在2号会议室举行，同样包括玛丽和彼得。对于第一个会议，已经成功向约翰发送了电子邮件提醒他在1号会议室参加会议。

第31页

Demo-2:

该章节讲述了如何检查纽约市当前的天气状况。通过调用相关的API接口，可以获取到纽约市目前的天气情况，包括温度、湿度等信息。在这个例子中，我们可以通过调用相应的API接口来获得纽约市当前的天气情况，结果显示天气晴朗，气温为摄氏10度，湿度为50%。这个例子可以帮助读者了解如何利用API接口来获取实时数据，并且展示了如何在Python中编写代码来实现这一功能。同时，这个例子也提醒了我们在使用API接口时需要注意一些问题，比如授权、参数设置等等。总之，这个例子对于初学者来说是非常有用的，可以帮助他们快速入门并掌握相关技能。

语言代理的元任务规划

华为诺亚方舟实验室

摘要

神经语言模型的快速进步引发了智能代理研究的新一波浪潮。与传统代理不同，基于大型语言模型的代理 (LLM 型代理) 因其出色的推理和泛化能力而成为实现通用人工智能（AGI）的一种有前途的方法。在现实世界任务中取得成功对于 LLM 型代理至关重要，因此它已成为社区内备受追捧的话题。当前规划方法通常将任务翻译为可执行的操作序列。然而，在精细粒度上确定复杂任务可行或最优的序列，这往往需要组合异质操作的长链，仍然是一个挑战。本文介绍了一种零样本协作 LLM 基础多代理系统中的元任务规划 (MTP)，通过分解任务到一系列从属任务，即元任务来简化复杂的任务规划。每个元任务映射到可执行的操作。MTP 在两个严格的基准测试 TravelPlanner 和 API-Bank 上进行了评估。值得注意的是，MTP 在 TravelPlanner 上取得了平均约 40% 的成功率，显著高于最先进的基线（2.92%），并在 API-Bank 中优于 LLMapi-42 + ReAct 约 14%，展示了将 LLM 集成到多代理系统中的巨大潜力。

1.介绍

自主代理，又称智能实体，在执行指定任务方面表现出色。这些代理的关键功能是规划，这需要高级理解、推理和决策[1]。智能代理的最优政策发现要求与未知、随机环境进行全面探索和交互[2]，限制了监督学习方法的应用，因为监督信号稀疏[3]。深度强化学习（DRL）广泛用于在没有数据或专家监督信号的情况下自主发现最优控制策略[4]。基于DRL的控制的有效性取决于开发准确的环境模型，通过其探索能力实现精确的任务理解。然而，这需要领域专家的专业知识，限制了DRL在复杂场景中的应用[5]。

最近，人们对赋予大型语言模型（LLM）代理权的兴趣显著增加。这些模型充当代理的核心认知部分 [6] 。得益于它们在自然语言中理解和执行人类指令的熟练程度，增强型代理已成为备受青睐的范式。基于LLM的代理凭借其出色的逻辑能力，对于战略规划至关重要，被广泛认为是迄今为止实现通用人工智能 (AGI) 的最有前途的道路之一 [7] 。

第 2 页

当前的LLM代理规划解决方案旨在将任务映射到可执行操作序列。计划然后执行方法[8，9]将复杂的任务分解为小、易于管理的子任务，以促进可执行操作序列的推断。相比之下，逐步方法[10，11，12，13，14]交替进行规划和执行，在每个动作的基础上根据先前的结果确定。前者简单地假设每个子任务都可以使用单个工具执行[8]，但实际应用往往需要具有多种功能的工具[15]。后者不适合时间敏感约束，要求全面条件评估、精心策划和后续执行。此外，这些方法的碎片化性质可能导致次优结果和潜在的任务失败。为了提高规划稳定性和性能，最近的研究[16，17，18]将LLMs与外部规划工具集成在一起，该工具需要特定格式的任务描述，例如第一阶逻辑[19]。然而，将各种任务转换为特定计算逻辑可能具有挑战性，并且通常需要大量的领域知识[20]。现有的基于LLM的多代理系统主要模拟人类行为和社会活动[21，22，23]，而协作多代理系统的规划，尽管其巨大的潜力尚未得到充分探索。

在这项工作中，我们提出了一种零样本规划方法Meta-任务规划（MTP），用于协作的基于LLM的多代理系统。通过将复杂的任务分解为一系列子任务或元任务，MTP简化了任务规划，并且每个子任务都可以通过一系列异构工具调用实现。具体来说，MTP包括一个任务分解管理器和执行元任务的一支执行者团队。管理器通过将任务分解成图来执行任务级规划，其中每个节点代表特定的元任务，边表示任务之间的依赖关系拓扑结构。然后，每个元任务被分解成一系列函数调用，即步骤级规划和执行。执行者可能利用现成的规划技术，如ReAct [11] ，以促进元任务的成功完成。MTP可以被视为一种框架，它通过装备规划核心扩展单个LLM代理的能力，从而将其转化为多代理合作。在受限场景中，例如预算有限的情况下，MTP将约束分为“本地”和“全局”类型。“本地”约束由执行者在元任务执行期间处理，“全局”约束与其他变量一起考虑。为了提高成功率和稳定性，MTP使用一个监督者代理来汇总中间元任务结果，并使用一个交付者代理来产生最终结果。

与现有规划方法中常用的玩具任务或谜题不同，我们评估了MTP在两个真实世界的应用上的性能：行程计划和日常工具使用。实验结果表明，在两个基准上，MTP取得了显著的性能提升。具体来说，MTP在TravelPlanner[26]上的成功率为约50%，比最初报道的0.6%有了显著提高。它还超越了API-Bank[27]中的ReAct+LLMapi-4，绝对改进率约为12%。据我们所知，这是第一个针对复杂真实世界任务的协作LLM多代理系统的规划和执行方法。

2 前言

基于大型语言模型的代理是一个AI系统，它利用大型语言模型作为其主要计算框架来展示文本生成之外的功能。这些功能包括对话、执行任务、逻辑推理和展示自主操作水平。正式而言，一个基于大型语言模型的代理由几个关键元素组成：A=(LLM,Fn,R,S,C)。LLM是代理使用的认知核心的语言模型实例，例如，LLaMA[28]。Fn是一组被代理调用或采取的操作函数。R是由提示指定的代理角色。S∈S是代理的状态，包括其现有的知识和内部过程。随着代理学习新信息并与周围环境（如环境或其他代理）互动，该状态会发生变化。最后，C是代理用于与其他代理交换信息或知识的通信模块。协作式基于大型语言模型的多代理系统由多个代理[A1,A2,…,Am]组成，它们一起工作以实现共同的目标。系统的每个代理Ai都有特定的角色Ra，并且专门从事特定的任务，例如任务分解。

3 任务规划

复杂的项目，例如建筑或制造方面的项目，往往面临重大挑战，特别是对于分散在不同地理位置的团队。然而，全面规划和有效的

第 3 页

语言代理的元任务规划 Meta-Task Planning for Language Agents_Agent

交流与协作可以确保成功的结果。鉴于此，我们引入了meta任务规划（MTP），这是一种用于协作LLM多代理系统的零样本规划方法，以提高每个代理之间的协调性。在MTP中，指定的经理代理将复杂的任务T={Ti|i∈S(K)={1,…,K}}分解为更小、更容易管理的子任务，称为meta任务{T1,T2,T3,…,TK},通过任务级别的计划。这些meta任务然后转换成由执行器代理执行的一系列异构工具使用动作的过程，称为步骤级别计划和执行。此外，MTP还包括一个监督者代理来促进执行器之间合成meta任务结果的共享，并且包括一个交付者代理来汇总所有meta任务的集体发现。全面的MTP框架如图1所示。

3.1 合作多智能体系统设计

语言代理的元任务规划 Meta-Task Planning for Language Agents_语言模型_02

3.1.1 管理员代理

经理代理有两个主要目标。首先，它将复杂的任务T分解为一组相互关联的子任务T={Ti|i∈S(K)={1，···，K}}。这些子任务通常具有依赖性，其中完成一个任务取决于另一个任务的完成。例如，决定酒店通常取决于确定旅行目的地。因此，经理必须仔细识别和定义这些互相关联的任务。此外，经理还必须分配合适的

第 4 页

语言代理的元任务规划 Meta-Task Planning for Language Agents_AI_03

将执行者分配给每个子任务。执行者被视为一组复合工具，经理根据子任务要求匹配它们，这种方法称为执行者作为工具技术。

其次，经理必须在任务分配上做出明智的决策，尤其是在预算限制或特定交通需求等旅行场景下的约束。一些约束可以在个别子任务中管理。例如，在搜索住宿的子任务中，最低入住要求确保只考虑合适的酒店。经理还需要识别跨子任务交互且无法在一个子任务内解决的约束。例如，在选择航班时，其他子任务提供的可用酒店和餐厅选项必须共同考虑。将本地和全局约束进行划分并攻克它们对于成功完成复杂任务至关重要。本地和全局约束的正式定义如下：

定义3.1。约束Cl是局部的，当且仅当∃！i∈S（K）使得Cl可以纯粹基于Ti的结果来满足。

定义3.2。约束Cg是全局的，当且仅当∃TCg={Ti|i∈S(K)}⊆S(K)，并且K≥|Tc|>1，使得基于所有Ti∈TCg的结果可以满足Cg。

<|end_of_prompt|>

值得注意的是，经理根据内部知识将潜在约束分为本地和全局两类，并且不提供有关T的约束信息。这确保了MTP零样本属性得以保持。图2（a）显示了经理提示设计的逻辑。

3.1.2 执行代理

管理者代理将每个元任务分配给一个执行器代理，该执行器代理可以访问各种异构工具（例如功能）。执行器的目标是创建完成分配的元任务的一系列操作（例如函数调用），同时遵守本地约束Cl。此过程显著降低了规划复杂性，因为执行器专注于特定、明确的任务，并且具有清晰的要求和限制。因此，将任务映射到执行序列的应用程序离散单个代理规划方法是可行的。图2 (b) 描述了执行器的概念提示设计。由于执行器之间的功能差异，对于每个执行器都需要根据他们可用的具体工具进行定制的设计方法。

3.1.3 监督代理

监督代理的角色是通过整合相邻子任务的合成结果来细化元任务Ti。在经理代理分解主任务后，只有模糊的目标（例如，“在城市B找到一家酒店”）和子任务之间的依赖关系（例如，“搜索飞往纽约”的“寻找城市B的一家酒店”）才被识别出来。为了有效地执行Ti，其输入参数需要精确的规格说明。例如，输入“在城市B找到一家酒店”必须根据先前子任务的结果（例如，“预订ZC9896航班前往纽约，到达约翰·F·肯尼迪国际机场”）正确更新为“在纽约附近找到一家约翰·F·肯尼迪国际机场附近的酒店”。为了应对这些细微差别并消除歧义，监督代理在Ti开始之前采取行动。它重新编写了Ti

第 5 页

语言代理的元任务规划 Meta-Task Planning for Language Agents_AI_04

action3 action2 action1

图4：步骤级计划和执行。执行者被提供了一个规划核心和一个工具箱，其中包括各种功能。这包括一个现成的规划算法，如ReAct[11]，用于将元任务转换为完成分配给元任务的一系列可执行函数调用。

通过参考所有相邻的子任务的结果。这确保了所有必要的参数都被包括在内，并且准确地实例化。

在这里，Ti的邻居定义为与Ti有直接依赖关系的元任务集合。正式地，Ti的邻域被定义为：

定义3.3。元任务Ti的邻居N(Ti)被定义为{Tj|∀j∈S(K)，s.t。，Tj→Ti}。

注释：另一种想法是将所有先例的子任务包含在Ti的结果合成中，而不是仅仅包括其直接邻居。虽然这似乎合理，但考虑到LLM具有许多任务的输入限制，可能会使管理代理不堪重负。相比之下，我们的方法专注于直接邻居，保持可管理性并避免此类复杂性。此外，我们的方法通过“消息传递”机制保留了所有信息，允许从先前的子任务正确地递归传播到Ti。以下命题支持这一主张：

命题3.4。如果满足局部约束，那么任务Ti可以被完成，当且仅当其直接邻域N(Ti)中的所有子任务都已满足各自的局部约束而被完成。

证明是直接的。如果所有任务Tj∈N(Ti)都完成了，那么Ti的所有先决条件要求都被满足了（因为Ti仅依赖于N(Ti))，从而允许完成Ti。相反，假设即使其中一个先决任务Tj(直接邻居或通过路径P athji到Ti)失败，Ti也是可完成的，则该失败会递归地传播到Ti，最终导致Ni的失败，这与假设Ti是可完成的相矛盾。监督器提示设计如图2 (c)所示。

3.1.4 发货人代理

交付代理的主要目标是综合所有子任务的结果，同时确保与全局约束保持一致。{Cg}的合成至关重要，因为只有在所有子任务结果可用后才能有效地解决{Cg}问题。因此，交付代理能够独特地管理这些约束，以确保最终结果全面满足所有全局约束。交付代理提示设计的逻辑如图2（d）所示。

所有代理的详细提示设计和技术介绍见附录D。

3.2 级联任务规划和执行

任务级别规划。管理代理将分析给定的复杂任务T，并将其分解为一系列相互依赖的子任务{Ti，T2,…}。MTP通过有向图G=(V，E)表示它们，称为子任务图。在G中，每个节点Vi∈V对应一个子任务Ti，每条边Eij∈E描述了子任务Ti和Tj之间的依赖关系，其中i，j∈S（K）。子任务图的架构如图3所示。执行者遵循该图的拓扑结构，

语言代理的元任务规划 Meta-Task Planning for Language Agents_子任务_05

即其边缘方向，以确保在启动前满足所有子任务的先决条件，从而增强整体任务执行的有效性。此外，子任务图还充当可视化任务分解和交互式界面的工具，以提高MTP系统的可解释性。它提供了一种持续监控机制，并可能进行潜在的人工干预，使其成为MTP的关键组成部分。

步骤级规划和执行。在任务级分解之后，每个子任务都可以进一步分解为一系列可执行的操作，即函数调用。由于每个子任务现在是一个特定的、定义明确的任务，并且具有清晰的要求和局部约束，因此可以将现成的规划方法直接应用于它，例如ReAct [11] 。具体来说，在开始子任务Ti之前，监督代理会通过参考所有相邻子任务N (Ti)的结果来重新编写Ti。然后，经理识别出的子任务Ti的本地约束Cl会被作为辅助信息与精简后的Ti一起提供给执行代理Ai，该执行代理将利用规划方法，如ReAct，来完成Ti，通过解码Ti生成一系列操作。整个过程如图4所示。

4个实验

为了评估MTP，我们超越了现有的规划方法，这些方法主要关注简单的任务或与实际应用无关的谜题。相反，我们通过将其应用于现实世界场景来评估MTP的有效性。具体来说，我们在行程计划和日常工具使用领域考察其有效性。我们专门在验证集上微调MTP（提示等），并将微调后的模型直接应用于测试集。对于[27]，由于没有专用的验证集，因此训练数据集被用作验证集的代理。对于所有基准，每个实例仅执行一次而无需采样，尽管

第 7 页

4.1 实验设置

4.1.1基准测试

TravelPlanner [26]。在TravelPlanner中，用户指定他们的出发地、目的地和个性化需求。基准评估语言代理的以下能力：（1）使用适当的工具高效收集所需信息；（2）为用户提供实用且个性化的旅行计划。该计划采用四个主要指标进行评估：（1）交付率（计划必须在30步内完成），（2）常识约束通过率，（3）硬性约束通过率，以及（4）最终通过率（满足所有常识和硬性约束的比例），这是评价中最重要的一项指标。（2）和（3）我们定义“微观”通过率为通过约束总数与总约束数之比，“宏观”通过率为所有约束通过的计划总数与总计划数之比。

旅行时间可以是3天，5天或7天。由于预算限制，我们证明了3天的数据集足以证明MTP的有效性。查询被分类为容易、中等和困难。

然而，我们发现基准测试包括了奇数规则作为其评估的一部分。例如，在整个旅行中多次选择同一家餐厅违反了Diverse Restaurants约束条件，并且将机场选为就餐地点违反了Within Sandbox约束条件。但是，在正常情况下，游客在旅途中返回喜爱的餐馆或在机场用餐是合理的。为了确保代理能够识别这些规则作为常识知识的一部分，我们向规划代理提供特定指导：MTP中的Deliverer Agent和React以及Sole-Planning中的Planner。为了保持实验的完整性并忠于原始TravelPlanner的目标，我们进行了一项单独的实验以排除外部知识。这项实验仍然包含在Diverse Restaurants和Within Sandbox设置中使用的不那么常规的规则。

由于我们的方法包括工具使用和规划（两阶段），我们比较了我们的方法与来自[26]的两个阶段基线ReAct，使用LLMapi-3.5-Turbo和LLMapi-4-Turbo作为语言模型。我们也进一步将我们的方法与最佳单一规划基线进行比较，即Direct LLMapi4-Turbo，它为代理提供了必要的信息，并且仅要求代理输出旅行计划。

API-Bank [27]。API-Bank是一种用于评估大型语言模型工具使用能力的基准，重点关注在日常生活中经常使用的API，例如电子邮件。

第 8 页

基准评估代理人员基于准确性（Accuracy）和“ROUGE”（ROUGE-L）得分。准确性指标根据用户查询衡量API调用的正确性，计算为正确API调用总数与总预测数的比例。我们通过定义正确性为唯一正确的API调用总数与总预测数之比来修改此指标以进行更一致、公平的评估。这一调整解决了某些语言模型，如LLMapi-3.5和LLMapi-4，倾向于重复正确API调用的趋势。ROUGE-L分数评估这些API调用产生的响应。我们的实验表明，在使用这个精简的准确性指标时，基准分数较低。

除了正确性，我们还引入了“完整性”，以更好地评估任务执行。仅凭正确性可能无法完全捕捉代理的性能，因为最小的API调用可能会人为地提高分数。完整性衡量的是唯一、正确的API调用与完成任务所需的总API调用的比例，解决了正确性的局限性，并确保对代理的有效性进行更准确的评估。我们也引入了一个名为“工具重复”的指标，测量模型在首次使用后正确调用API的频率。较低的重复次数表明不必要的推理较少，意味着更加高效的解决方案。

4.2 结果分析

4.2.1 TravelPlanner的结果分析。

从表1和表2可以看出，MTP在存在或不存在非传统提示的情况下均显著优于所有基线方法。值得注意的是，在包含提示时，通过MTP增强的LLMapi4在所有难度级别上实现了平均最终通过率42.68%，而基线仅为2.92%。这些数据强调了将大型语言模型（LLMs）与多代理系统集成的潜力，并将其作为未来基于LLM的代理系统的有前途的研究领域。

在没有提示的情况下，设置复制了描述在 [26] 中的内容，在那里基准模型的最高最终通过率是 0.56%，与原始研究的结果一致。在这种情况下，MTP 显著提高，平均最终通过率为 22.4%，超过了 [26] 中报告的最佳基准结果。

值得注意的是，Meta任务计划器（MTP）在使用提示和不使用的设置中显著优于标准计划者（SP）。SP纯粹作为决策框架运行，在其中所有完成行程所需的所有元素，例如酒店、航班和餐厅的多个选择都是预先提供的；因此，SP代理仅从这些预定义的集合中选择最合适的选项来构建最终行程。这使得SP相对而言是一个比MTP和其他基准更简单的任务，后者需要在做出决定之前搜索并收集必要的元素。然而，MTP实现了更高的最终通过率，这一发现可能看起来与直觉相悖，但可以解释如下：MTP的出色表现归功于其有效部署了分而治之策略以管理约束。通过执行子任务期间解决众多局部约束，MTP显着减少了代理在制定最终行程计划时遇到的复杂性。表3显示

第 9 页

详细说明了各个约束条件下的通过率，表明MTP在所有约束条件下显著优于LLMapi4+ReAct+CoT。然而，在装备MTP的情况下，LLMapi3.5不如LLMapi4有效，可能是因为模型性能较低。我们在附录E中提供了每个难度级别的示例结果。我们还在附录C中展示了每个难度级别（容易、中等和困难）的详细结果。

API银行结果分析。 4.2.2 |

首先，MTP显着提高了LLMapi4和LLMapi3.5在所有关键评估指标上的性能。与现有基准相比，MTP始终表现出更优的性能。值得注意的是，在原始论文中报告的最佳性能为成功率为70%，而我们的重新实现略微超过了这一水平，达到71.48%。因此，MTP通过在[27]中引用的顶级方法上至少高出14%的优势脱颖而出。此外，MTP在其他关键领域如任务完成度方面表现卓越，达到了令人印象深刻的64.08%，并且显示了显著较少的冗余工具交互，只有七次。这种稳健的表现凸显出MTP在重新定义高级语言模型的能力方面的潜力。我们在附录E中提供了每个难度级别的示例结果。

语言模型代理规划的文献综述

生成式语言模型的出现为代理带来了新的范式，展示了在推理 [33, 34, 35]、规划 [11, 36, 37]、指令遵循 [38, 39, 40] 和工具使用 [8, 41, 42] 等方面具有显著智能。规划是与外部环境交互的基本能力之一，涉及组织思维轨迹、设定目标和确定实现目标的步骤[43]。一些工作 [9, 11, 12, 34] 关注任务分解，旨在以分而治之的方式解决复杂任务。计划选择方法 [35, 36, 37, 44] 引导 LLM 生成各种针对任务的备选方案，并通过搜索算法进行最优计划的选择和执行。最近的研究 [45, 46, 47, 48] 还探索了通过反思和精炼策略来增强 LLM 的规划能力。此外，一些工作 [49, 50, 51] 也引入了外部规划者来辅助 LLM 的规划过程。

已经开发了许多策略来利用LLM的潜力进行特定代理规划[52]，其规划的有效性和准确性显著决定了代理的稳健性和可用性。Web代理[53、54、55、56]通过模拟人类的网络浏览行为来探索LLM与web环境之间的交互，使用基于RL的规划或轨迹规划来模拟人类的网络浏览行为。通用工具代理需要与大量API或工具交互，使规划过程更加具有挑战性。工具代理规划解决方案通常依赖于各种任务分解[8、57]、自我校正[58]和领域推理[59]策略。其他任务专用代理专注于设计复杂的规划策略，例如树搜索[60]和贝叶斯自适应MDPs[61]。多代理系统[62、63、64、65]试图通过结合多个强大的LLM代理来解决更复杂的真实世界任务。现有的解决方案主要集中在处理异构代理的集成固有的复杂性上，这些代理具有不同的能力和专业技能[65]，而忽略了这些代理之间的规划策略。相比之下，我们的MTP专注于为多代理系统设计通用且稳健的规划策略。尽管LLMapiSwarm[66]共享类似的概念，但它侧重于通过复合图可视化多代理协作以帮助提示调整，而我们的MTP是专门为具有多个协作代理的系统设计的规划算法。

结论 6

本文提出了一种创新的零样本协作大型语言模型多代理系统任务规划方法，即Meta-Task Planning (MTP)。通过将复杂任务分解为层次化的子任务，并映射到可执行的操作上，MTP简化了任务规划过程。在两个基准测试中，TravelPlanner和API-Bank上对MTP进行了评估。在TravelPlanner上，平均成功率为约42%，比初始成功率0.6%有了显著提高；而在API-Bank上，与ReAct相比，MTP的表现提高了14%。然而，当前的设计仍然需要执行者代理的人工输入。通过使管理器代理能够自主设计执行者代理的提示来增强MTP，可以优化执行者代理的创建，加速MTP的实际应用。未来的研究应专注于通过先进的提示优化开发更自主的代理，如最近提出的那样。

第 10 页

文献[67]。这种方法承诺通过不依赖人类干预来精简MTP的功能并扩大其适用性，从而导致更智能和自给自足的多代理系统。

参考文献

[1] 胡旭，刘伟文，陈小龙，王兴梅，王浩，连德富，王亚生，唐汝明，陈恩宏。理解llm代理的规划：综述。ArXiv，abs/2402.02716，2024。

[2] Michael Wooldridge。智能代理。多智能体系统：分布式人工智能的现代方法，第1卷：第27-73页，1999年。

[3] Dominic Wong. A critical literature review on e-learning limitations. Journal for the Advancement of Science and Arts, 2 (1) : 55 - 62 , 2007 .

[4] Richard S Sutton和Andrew G Barto。强化学习：介绍。MIT出版社，2018年。

[5] 王旭，王森，梁星兴，赵大伟，黄金才，徐新，戴斌，苗启光。深度强化学习：综述。IEEE神经网络与学习系统杂志，2022年。

[6] 王磊，马晨，冯学洋，张泽宇，杨浩，张景森，陈志远，唐嘉凯，陈旭，林彦恺等。基于大型语言模型的自主代理综述。计算机科学前沿，2024年，第18卷，第6期：1-26。

[7] You Jiaxuan, Liu Ge, Li Yunzhu, Han Song, and Song Dawen. How far are we from AGI? In ICLR 2024 Workshops, 2024。

[8] 永亮·申，凯涛·宋，谭旭，李东升，陆伟明和庄玉婷。HuggingGPT：使用ChatGPT及其在Hugging Face中的朋友解决AI任务。神经信息处理系统进展，第36卷，2024年。

[9] 王磊，徐万玉，蓝义怀，胡志强，兰云石，李耀伟和林奕鹏。计划并解决提示：通过大型语言模型改进零样本链式推理。在第61届国际计算语言学协会年会（卷1：长篇论文）上的报告，页面为2609 - 2634，加拿大多伦多，2023年7月。国际计算语言学协会。

[10] 芮杰森，王雪志，舒尔曼斯戴尔，博斯马马特恩，夏飞，奇埃德，黎福克，周登尼等。链式思维提示在大型语言模型中引发推理。神经信息处理系统进展，第35卷：24824-24837，2022年。

[11] 邢宇尧，赵杰夫，于典，杜楠，沙弗兰伊扎克，纳拉西曼卡里希克·R和曹元。React：在语言模型中协同推理与行动。第十一届国际表示学习会议，2023年。

[12] 沈文虎，马学光，王新怡和威廉·W·科恩。程序思想提示：从计算中分离推理以进行数值推理任务。机器学习研究杂志，2023年。

[13] 吴晨菲，殷胜明，齐维珍，王小东，唐泽成，段南。视觉ChatGPT：基于视觉基础模型的对话、绘画和编辑。arXiv预印本arXiv：2303.04671，2023。

[14]高路雨，马丹阿曼，周舒燕，阿隆尤里，刘鹏飞，杨一鸣，卡兰杰米和纽比格拉汉姆。PAL：程序辅助语言模型。在第40届国际机器学习大会论文集上，卷202的会议记录，页码为10764–10799。PMLR，2023年7月23日至29日。

[15] Narayanan Krishnakumar 和 Amit Sheth。管理异构多系统任务以支持企业级操作。分布式和并行数据库，第3卷：第155-186页，1995年。

第 11 页

[16] Gautier Dagan，Frank Keller和Alex Lascarides。使用llm进行动态规划。arXiv预印本：arXiv：2308.06391，2023年。

[17]林冠，卡特里克·瓦尔梅凯姆，萨拉特·斯里德哈兰和苏巴拉奥·坎巴潘蒂。利用预先训练的大语言模型构建并使用世界模型进行基于模型的任务规划。神经信息处理系统进展，第36卷：79081-79094，2023年。

[18] 郑阳，亚当·伊沙和乔亨·李。将大型语言模型与逻辑编程相结合以实现从文本中进行稳健且通用的推理。在第61届国际计算语言学协会年会，2023。

[19] Jon Barwise。第一阶逻辑的介绍。在《逻辑和数学基础研究》第90卷，页码为5-46。Elsevier出版社，1977年。

[20]Andrew Cropper和Sebastijan Dumancˇic´。归纳逻辑编程在30年：一个新的介绍。人工智能研究杂志，第74期：第765-850页，2022年。

[21] 李国浩，哈桑·哈穆德，汉尼·伊坦尼，迪米特里·基兹布尔林和伯纳德·甘内姆。骆驼：用于大型语言模型社会“心智”探索的通信代理。神经信息处理系统进展，第36卷，2024年。

[22] Joon Sung Park，Joseph O'Brien，Carrie Jun Cai，Meredith Ringel Morris，Percy Liang和Michael S Bernstein。生成型代理：人类行为的交互式仿真。在第36届ACM用户界面软件和技术年会论文集上发表，页码为1-22，2023。

[23] 高晨，兰晓冲，李念，袁媛，丁靖涛，周志伦，徐峰利，李勇。大型语言模型赋能的代理建模与仿真：综述和展望。arXiv预印本arXiv：2312.11970，2023。

[24] Ishika Singh，Valts Blukis，Arsalan Mousavian，Ankit Goyal，Danfei Xu，Jonathan Tremblay，Dieter Fox，Jesse Thomason，and Animesh Garg。Progprompt：使用大型语言模型生成机器人任务计划。在2023年IEEE国际机器人与自动化会议（ICRA）上，第11523-11530页。IEEE，2023。

[25] Janice Ahn，Rishu Verma，Renze Lou，Di Liu，Rui Zhang和Wenpeng Yin。用于数学推理的大语言模型：进展与挑战。arXiv预印本arXiv：2402.00157，2024。

[26] 建谢，凯张，江杰陈，婷慧朱，伦泽卢，元东天，阳华肖和于苏。Travelplanner：一种用于语言代理的现实世界规划基准。ArXiv，abs/2402.01622，2024。

[27] 李明浩，赵英秀，于博文，宋飞帆，李航宇，余海阳，李周军，黄飞和李勇斌。API银行：工具增强的LLM综合基准。在2023年自然语言处理实证方法会议上发表，新加坡，2023年12月，页面3102-3116。计算语言学协会。

[28] Hugo Touvron，Thibaut Lavril，Gautier Izacard，Xavier Martinet，Marie-Anne Lachaux，Timo-thée Lacroix，Baptiste Rozière，Naman Goyal，Eric Hambro，Faisal Azhar，等。Llama：开放且高效的通用语言模型。arXiv预印本arXiv：2302.13971，2023。

[29] Eur Ing Albert Lester。第20章：规划块和分区。在Eur Ing Albert Lester，编辑，《项目管理、计划与控制》（第七版），页码131-142。Butterworth-Heinemann，第七版，2017年。

[30] 郑楚，陈景昌，陈强龙，于伟江，何涛，王浩天，彭卫华，刘明，秦冰，刘婷。思维链推理研究综述：进展、前沿与未来。ArXiv，abs/2309.15402，2023。

[31] 王磊，马晨，冯学洋，张泽宇，杨浩，张景森，陈志远，唐嘉凯，陈旭，林彦恺，赵新，魏哲伟，文继荣。基于大型语言模型的自主代理综述。计算机科学前沿，2024年3月第18卷第6期。

第 12 页

[32] Tula Masterman，Sandi Besen，Mason Sawtell和Alex Chao。推理、规划和工具调用的新兴人工智能代理架构景观：综述。ArXiv，abs/2404.11584，2024。

[33] Takeshi Kojima，Shixiang（Shane）Gu，Machel Reid，Yutaka Matsuo和Yusuke Iwasawa。大型语言模型是零样本推理器。在神经信息处理系统进展中，卷35，第22199-22213页。Curran Associates，Inc。，2022年。

[34] 芮杰森，王雪志，舒尔曼斯戴尔，博斯马马特恩，伊赫特布莱恩，夏菲，奇埃德，李奎克和周登尼。链式思维提示在大型语言模型中引发推理。ArXiv，abs/2201.11903，2023。

[35]王学志，魏嘉森，舒尔曼斯·戴尔，黎奎克·沃特，希德·哈里·奇，纳朗·沙兰，乔坎什·查杜赫里和周登尼。自我一致性改善了语言模型的链式推理。在第十一届国际表示学习会议上，2023年。

[36] Yao Shunyu，Yu Diann，Zhao Jiefei，Shafran Izhak，Griffiths Thomas L，Cao Yuan，and Narasimhan Karthik R. Thoughts tree：Intentional problem-solving with large language models. In Thirty-seventh Conference on Neural Information Processing Systems, 2023.

[37] 马切伊·贝斯塔，尼尔斯·布莱克，阿莱斯·库比切克，罗伯特·格斯特纳格尔，米哈尔·波德扎斯基，卢卡斯·吉安内齐，乔安娜·加尔达，托马什·莱赫曼，胡贝尔特·尼维亚多姆斯基，皮奥特·尼克齐克和托尔斯滕·霍弗勒。思想图：使用大型语言模型解决复杂问题。在人工智能协会（AAAI）的《人工智能》会议上发表，第17682-17690页。人工智能进步协会（AAAI），2024年3月。

[38] 虞灿，孙清峰，郑凯，耿西博，赵普，冯家赞，陶朝荣，江大鑫。WizardLM：增强大型语言模型执行复杂指令的能力。ArXiv，abs/2304.12244，2023。

[39] 王一中，科迪·叶根恩，米什拉·斯瓦罗普，刘艾莎，史密斯·诺亚·阿，卡哈希比·丹尼尔和哈吉施里兹·汉纳内。自我指导：将语言模型与自动生成的指令对齐。在《第61届国际计算语言学协会年会（卷1：长篇论文）》上发表的文章，页码为13484 - 13508，加拿大多伦多，2023年7月。国际计算语言学会。

[40] Jie Ren，Yao Zhao，Tu Vu，Peter J. Liu，and Balaji Lakshminarayanan。自我评估改善大型语言模型的有选择性生成。ArXiv，abs/2312.09300，2023。

[41] Timo Schick，Jane Dwivedi-Yu，Roberto Dessì，Roberta Raileanu，Maria Lomeli，Luke Zettle-moyer，Nicola Cancedda，and Thomas Scialom。Toolformer：语言模型可以自己学会使用工具。arXiv，abs/2302.04761，2023。

[42] 阳瑞，宋林，李彦伟，赵世杰，葛一晓，李秀，山英。GPT4工具：通过自我指令训练大型语言模型使用工具。在A. Oh、T. Naumann、A. Globerson、K. Saenko、M. Hardt和S. Levine编辑的《神经信息处理系统进展》，第36卷，页码为71995-72007。Curran Associates，Inc。，2023年。

[43] 马塞洛·G·马塔尔和马泰·伦吉尔。大脑中的规划。《神经元》，第110卷（第6期）：第914-934页，2022年。

[44] Xiao Hengjia and Wang Peng. Llm a*: 机器人领域中的人类在环大型语言模型实现了a*搜索。ArXiv，abs/2312.01797，2023。

[45]诺亚·辛、费德里科·卡萨诺、爱德华多·伯曼、阿什温·戈皮纳特、卡西希姆·纳拉西米汉和舒恩宇。反射：具有口头强化学习的语言代理。ArXiv，abs/2303.11366，2023。

[46] Aman Madaan，Niket Tandon，Prakhar Gupta，Skyler Hallinan，Luyu Gao，Sarah Wiegreffe，Uri Alon，Nouha Dziri，Shrimai Prabhumoye，Yiming Yang，Shashank Gupta，Bodhisattwa Prasad Majumder，Katherine Hermann，Sean Welleck，Amir Yazdanbakhsh，and Peter Clark。Self-refine：Iterative refinement with self-feedback. In Thirty-seventh Conference on Neural Information Processing Systems，2023。

第 13 页

[47] 黄文龙，夏飞，肖泰，陈哈里斯，梁杰克，佛罗伦斯彼得，张安迪，汤普森乔纳森，莫达奇伊戈尔，切博塔耶夫叶夫根尼，塞曼特皮埃尔，布朗诺亚，杰克逊托马斯，卢琳达，列维卡洛尔，艾希特布莱恩。内心独白：通过语言模型进行规划的有意识推理。ArXiv，abs/2207.05608，2022。

[48] Zhibin Gou，Zhihong Shao，Yeyun Gong，yelong shen，Yujiu Yang，Nan Duan，and Weizhu Chen。CRITIC：大型语言模型可以通过工具交互式批评自我纠正。在第十二届国际表示学习会议上，2024年。

[49] 刘博，江玉谦，张夏涵，刘，张世奇，比斯瓦斯·乔伊德普和彼得·斯通。Llm+p：通过最优规划能力增强大型语言模型。ArXiv，abs/2304.11477，2023。

[50] Bill Yuchen Lin，Yicheng Fu，Karina Yang，Faeze Brahman，Shiyu Huang，Chandra Bhagavatula，Prithviraj Ammanabrolu，Yejin Choi，and Xiang Ren。Swiftsage：一种具有快速和慢速思考能力的生成型代理，用于复杂的交互式任务。在神经信息处理系统进展中，卷36，第23813-23825页。Curran Associates，Inc。，2023年。

[51]Andrew Zhao，Daniel Huang，Quentin Xu，Matthieu Lin，Yong-Jin Liu和Gao Huang。Expel：Llm代理是经验学习者。人工智能协会年会论文集，第38卷（17）：19632-19642，2024年3月。

[52] 西志恒，陈文翔，郭新，何伟，丁一文，洪博洋，张明，王俊哲，金森杰，周恩宇，郑睿，范夏然，王小，熊立毛，周雨豪，王卫然，江长浩，邹亦诚，刘祥阳，殷张月，窦世涵，翁荣翔，程文剑，秦文娟，郑永艳，邱喜鹏，黄宣炯，桂涛。大型语言模型驱动的代理兴起及其潜力：综述。ArXiv，abs/2309.07864，2023。

[53] Yao Shunyu，Chen Howard，Yang John，Narasimhan Karthik。Webshop：朝向基于语义的对话系统在真实世界中的大规模应用。由S. Koyejo、S. Mohamed、A. Agarwal、D. Belgrave、K. Cho和A. Oh编辑，神经信息处理系统进展，第35卷，页码为20744-20757。Curran Associates，Inc。，2022年。

[54] 邓翔，顾宇，郑博源，陈世杰，史蒂夫·斯蒂文斯，王博石，孙焕和苏玉。Mind2Web：迈向通用的网络代理。在A. Oh、T. Naumann、A. Globerson、K. Saenko、M. Hardt 和S. Levine编辑的《神经信息处理系统进展》，第36卷，页码为28091-28114。Curran Associates，Inc。，2023年。

[55]伊兹德丁·古尔，广田浩树，黄奥斯汀V，马苏德·萨法迪里，松尾裕太，埃克，亚历山德拉·福斯特。一个具有规划、长上下文理解和程序合成的现实世界网络代理。在第十二届国际学习表示会议，2024年。

[56] Hiroki Furuta，Yutaka Matsuo，Aleksandra Faust和Izzeddin Gur。在Web上的序列任务组合中暴露语言模型代理的局限性。在2024年ICLR大型语言模型（LLM）代理工作坊上发表。

[57] 源思宇，宋凯涛，陈江杰，谭旭，沈永亮，干仁，李东升和杨德清。Easytool：使用简洁工具指令增强llm基代理。ArXiv，abs/2401.06201，2024。

[58] 马玉波，郭志斌，郝俊恒，徐鲁成，王硕航，潘亮明，杨雨久，曹一鑫，孙爱新，阿瓦德拉·哈尼，陈维竹。SciAgent：用于科学推理的工具增强语言模型。ArXiv，abs/2402.11451，2024。

[59] Pan Lu，Baolin Peng，Hao Cheng，Michel Galley，Kai-Wei Chang，Ying Nian Wu，Song-Chun Zhu，and Jianfeng Gao。Chameleon：Plug-and-play compositional reasoning with large language models. In Thirty-seventh Conference on Neural Information Processing Systems，2023。

[60]Andy Zhou，Kai Yan，Michal Shlapentokh-Rothman，Haohan Wang和Yu-Xiong Wang。语言代理树搜索将语言模型中的推理、行动和规划统一起来。ArXiv，abs/2310.04406，2023。

第 14 页

[61]刘志涵，胡浩，张深奥，郭红毅，柯书琪，刘博一，王卓然。未来之因，当下之果：可证明样本效率的自主llm代理的原则性框架。arXiv，abs/2309.17382，2023。

[62]陈维泽，苏玉生，左靖伟，杨成，袁晨飞，陈敏，于海洋，陆雅西，洪一昕，钱晨，秦宇佳，丛欣，谢若冰，刘志远，孙茂松和周杰。Agentverse：促进多智能体协作并探索涌现行为。在第十二届国际学习表示会议，2024年。

[63] 鸿士锐，朱哲明，陈江，郑晓武，程雨恒，王金林，张赛尧，王子立，叶树声，林子娟，周李阳，冉晨宇，肖凌峰，吴成林，舒尔根·施密特胡伯。MetaGPT：多智能体协作框架的元编程。在第十二届国际表示学习大会上，2024年。

[64] Ran Gong，Qiuyuan Huang，Xiaojian Ma，Hoi Vo，Zane Durante，Yusuke Noda，Zilong Zheng，Song-Chun Zhu，Demetri Terzopoulos，Li Fei-Fei，and Jianfeng Gao。Mindagent：Emergent Gaming Interaction。ArXiv，abs/2309.09971，2023。

[65] Kai Mei，Zelong Li，Shuyuan Xu，Ruosong Ye，Yingqiang Ge，and Yongfeng Zhang。Aios：LLM代理操作系统。ArXiv，abs/2403.16971，2024。

[66] 明晨诸葛，文义王，路易斯·基施鲍尔，弗朗西斯科·法乔，迪米特里·希兹布尔林和尤金·舒马赫。语言代理作为可优化的图。arXiv预印本：arXiv：2402.16823，2024。

[67] 杨成润，王雪志，陆一峰，刘汉霄，黎昆越，周德恩，陈昕云。大型语言模型作为优化器。在第十二届国际表示学习会议上，2023年。

第 15 页

限制

尽管表现令人印象深刻，但目前MTP执行器代理的架构仍然需要人类输入。通过使管理器代理能够自主生成执行器代理的提示，从而优化执行器创建过程，可以在MTP中实现显著改进。此类进步将显着加速实用应用并提高MTP的有效性。

B 更广泛的影响力

这项研究探索了基于LLM的代理在帮助人类解决复杂任务方面的实现。虽然这种自动化承诺提高了生产力和对高级任务的关注，但它也引发了透明度和可解释性的担忧。LLMs的不确定性可能会模糊决策过程，从而降低对敏感应用的信任，在这些应用中理解AI的推理至关重要。此外，通过自动化通信，有可能减少重要的人际互动和在专业环境中进行高质量交流和关系所必需的细微差别。因此，必须将这些代理的部署纳入伦理考虑，并建立可解释性机制以减轻这些风险，确保它们积极且负责任地为社会和技术进步做出贡献。

Paper： https://arxiv.org/pdf/2405.16510