Chapter 10

多Agent协作

核心问题　复杂任务超出单个Agent的能力时，多个Agent如何分工配合？ 阅读收获　理解多Agent协作的四种主要模式，能根据任务特征选择合适的协作架构

本章概览

本章包含5个知识点，围绕"多个AI Agent如何像团队一样协作"展开：

多Agent协作（本章核心概念） │ ├──→ 协作模式（四种基本模式：流水线、讨论、主从、对抗） │ ├──→ 多Agent框架（MetaGPT、AutoGen、CrewAI等实现工具） │ ├──→ 编排策略（静态编排 vs 动态编排，决定Agent如何组队） │ └──→ 挑战与趋势（当前瓶颈与未来发展方向）

阅读建议：前两节（多Agent协作 + 协作模式）是核心，建议仔细阅读。后面三节是对核心概念的扩展和深化，可根据兴趣选读。

10.1 多Agent协作

任何足够复杂的任务，都不是一个人能独自高效完成的。AI Agent也是如此。

定义

多Agent协作（Multi-Agent Collaboration）是指让多个具有不同角色或能力的AI Agent分工配合，共同完成一个复杂任务的工作方式。每个Agent专注于自己擅长的部分，通过明确的通信机制交换信息和成果，最终协同产出整体结果。

问题背景

当任务复杂度上升时，单Agent面临几个根本性的瓶颈：

瓶颈	说明
上下文限制	复杂任务涉及的信息量可能超出单个模型的上下文窗口
角色混乱	一个Agent同时扮演产品经理、程序员、测试员，容易在角色间混淆
专注度下降	任务类型太杂，每个都做不精
扩展性差	新增任务需要重新设计整个Agent的能力

这些瓶颈与人类世界面临的挑战如出一辙——正如没有一个人能同时做好产品设计、系统架构、代码编写和质量测试，单个Agent也无法在所有维度都表现优异。

价值主张

相比单Agent，多Agent协作带来了明确的优势：

优势	说明
分工明确	每个Agent只负责特定类型的任务
专业性强	每个Agent可以针对其职责进行专门的提示词优化
并行处理	互不依赖的子任务可由多个Agent同时执行
易于扩展	新增需求只需添加新Agent，不影响现有系统
角色一致性	每个Agent始终保持同一角色，不会出现"人格分裂"

类比

公司团队：假设你要开发一个软件产品。一个人从需求分析、架构设计、编码实现到测试验收全部包揽，不仅效率低，而且每个环节都难以做到专业。但如果组建一个团队——产品经理理解需求、架构师设计方案、工程师编写代码、测试工程师验收质量——每人专注擅长的部分，效率和质量都会大幅提升。

多Agent协作的逻辑与此完全相同：每个Agent就是团队中的一个"工种"，通过分工协作完成单个Agent难以胜任的复杂任务。

适用场景

并非所有任务都需要多Agent。以下是判断标准：

适合多Agent的场景：

任务涉及多个专业领域（如软件开发需要产品、设计、开发、测试）
需要多轮讨论或多角度分析（如投资决策、方案评估）
任务可以拆分成独立的子任务
需要检查和验证机制（一个Agent做，另一个Agent审核）

不需要多Agent的场景：

简单的一次性问答
单一领域的明确任务
任务复杂度较低，一个Agent即可胜任

常见误区

误区："多Agent一定比单Agent好"

多Agent引入了额外的协调成本和通信开销。对于简单任务，多Agent反而可能更慢、更贵、更容易出错。关键不在于Agent的数量，而在于任务是否真的需要分工。就像搬一张桌子不需要组建一个团队，简单问答也不需要多个Agent协作。

10.2 协作模式

确定了需要多Agent之后，下一个问题是：这些Agent如何组织和配合？不同的任务结构适合不同的协作模式。

定义

协作模式（Collaboration Pattern）是多Agent系统中Agent之间信息流动和任务分配的组织方式。常见的模式包括顺序流水线、协作讨论、主从架构和对抗辩论四种。

分类

多Agent协作有四种基本模式，各有特点和适用场景：

模式一：顺序流水线

定义

顺序流水线（Sequential Pipeline）是指多个Agent按照固定的先后顺序依次执行各自的任务，前一个Agent的输出作为后一个Agent的输入。

可视化

任务 → Agent A（理解需求）
           ↓
       Agent B（设计方案）
           ↓
       Agent C（执行实现）
           ↓
       Agent D（检查验收）
           ↓
         结果

构造案例

特点	说明
结构	线性，A完成后B开始
优点	简单清晰，易于管理和调试
缺点	无法并行，整体效率受最慢环节制约
适用	有明确阶段划分的任务，如内容创作、软件开发

模式二：协作讨论

定义

协作讨论（Collaborative Discussion）是指多个Agent同时从不同角度分析同一个问题，然后由汇总机制整合各方观点得出结论。

可视化

        ┌─→ Agent A（视角1）─┐
        │                    ↓
任务 ───┼─→ Agent B（视角2）─→ 汇总讨论 → 结论
        │                    ↑
        └─→ Agent C（视角3）─┘

构造案例

分析一个投资机会：

乐观派Agent：分析潜在收益
悲观派Agent：分析风险因素
数据派Agent：提供客观数据
总结Agent：综合各方意见，给出建议

特点	说明
结构	多角度同时分析，最后汇总
优点	答案更全面，减少单一视角的盲区
缺点	需要有效的整合机制，可能达不成共识
适用	需要多角度分析的决策问题

模式三：主从架构

定义

主从架构（Orchestrator-Worker）是指一个"领导"Agent负责理解任务、拆分子任务并分配给多个"执行"Agent，最后汇总各执行Agent的结果。

可视化

               任务
                ↓
          【领导Agent】
         /     |     \
        ↓      ↓      ↓
     执行A   执行B   执行C
        \      |      /
         ↘    ↓    ↙
          【领导Agent】汇总结果
                ↓
              输出

构造案例

组织一场活动：

领导Agent：理解需求，分配任务，汇总结果
场地Agent：负责查找和预订场地
餐饮Agent：负责餐饮安排
邀请Agent：负责嘉宾邀请

特点	说明
结构	一个领导，多个执行者
优点	协调性好，最灵活，是最常用的模式
缺点	领导Agent负担重，它的能力决定了整体上限
适用	大部分复杂任务，尤其是可拆分但需要统一协调的

模式四：对抗辩论

定义

对抗辩论（Adversarial Debate）是指两个或多个Agent持不同立场互相质疑和挑战，由裁判Agent综合各方论点做出最终判断。

可视化

问题 → Agent A（正方）⟷ Agent B（反方）→ 评判Agent → 结论

构造案例

评估一个商业决策：

支持Agent：论证为什么应该做
反对Agent：论证为什么不应该做
裁判Agent：综合双方论点，做出判断

特点	说明
结构	辩论后由裁判决定
优点	减少偏见，深入分析，提高结论质量
缺点	耗时较长，LLM调用次数多
适用	需要审慎决策的重要问题

对比

四种模式的综合比较：

模式	优点	缺点	适合场景	复杂度
顺序流水线	简单清晰	不能并行	阶段性任务	低
协作讨论	多角度全面	需要整合机制	复杂决策	中
主从架构	灵活协调	依赖领导Agent	复杂项目	中高
对抗辩论	深入分析	效率较低	重要决策	高

构造案例

用不同模式处理"写一篇博客文章"：

流水线模式：需求分析Agent → 大纲规划Agent → 写作Agent → 审核Agent，依次传递
主从模式：编辑Agent（领导）将任务拆给调研Agent、写作Agent、配图Agent，最后汇总
讨论模式：三个写作Agent各写一个版本，由评审Agent比较优劣，取各家之长
辩论模式：一个Agent论证"应该写成教程风格"，另一个论证"应该写成故事风格"，裁判Agent决定

同一个任务可以用不同模式完成，选择取决于你最看重什么——效率、质量还是创意。

类比

四种协作模式的日常对应：

流水线 = 工厂装配线：每个工位做一道工序，产品沿流水线前进
协作讨论 = 医院会诊：主治医生、外科医生、放射科医生各给意见，最终综合诊断
主从架构 = 项目经理制：PM拆分任务分给团队成员，收集成果后统一交付
对抗辩论 = 法庭审判：控辩双方各陈其词，法官做出裁决

10.3 多Agent框架

了解了协作模式之后，一个自然的问题是：这些模式在实际中是如何实现的？答案是多Agent框架。

定义

多Agent框架（Multi-Agent Framework）是提供Agent创建、角色定义、通信协议和任务编排等基础设施的软件工具包。它让开发者不必从零搭建多Agent系统，而是在框架提供的结构上快速配置和部署。

关键组件

一个典型的多Agent框架通常包含以下组件：

组件	职责	类比
Agent定义	创建Agent、设定角色和能力	招聘和岗位描述
通信机制	Agent之间如何传递信息	公司内部沟通渠道
任务编排	定义Agent的协作流程和顺序	项目管理流程
记忆管理	Agent如何存储和检索历史信息	会议纪要和知识库

构造案例

MetaGPT：AI软件开发团队

MetaGPT是一个典型的多Agent框架，它模拟了一个完整的软件公司。通过将标准操作流程（SOP）编码为协作提示，让多个Agent按照真实公司的分工方式合作。

Agent	角色	职责	输出
ProductManager	产品经理	理解需求	PRD文档、用户故事
Architect	架构师	设计技术方案	架构图、设计文档
Engineer	工程师	编写代码	可运行的程序
QA	测试工程师	编写测试用例	测试报告

用户需求："开发一个贪吃蛇游戏"
    ↓
ProductManager：分析需求 → 输出PRD文档
    ↓
Architect：设计架构 → 输出设计文档、流程图
    ↓
Engineer：根据设计编写代码 → 输出可运行的程序
    ↓
QA：编写测试用例 → 报告bug
    ↓
最终交付：完整的游戏程序

这是一个典型的流水线模式应用。多Agent协作生成的代码质量显著高于单Agent直接生成的结果。

对比

当前主流的多Agent框架各有特点：

框架	开发方	核心特点	适用场景
MetaGPT	开源社区	模拟公司结构，角色明确，SOP驱动	软件开发
AutoGen	微软	对话式协作，高度灵活，支持人类参与	通用任务
CrewAI	开源	配置简单，上手快	快速原型
LangGraph	LangChain	图结构编排，高度可定制	复杂流程
Swarm	OpenAI	轻量级，概念简洁	简单协作

权威引用

"MetaGPT将不同的角色分配给GPTs，形成一个协同的软件实体来执行复杂任务。它以一行需求作为输入，输出用户故事、竞争分析、需求、数据结构、API、文档等。"

—— MetaGPT论文

待补充需要一个企业或团队使用多Agent框架（如AutoGen或CrewAI）完成实际项目的公开案例，说明框架在真实场景中的表现和效果。

10.4 编排策略

多Agent系统中，Agent的组队方式和协作流程并非只有一种设计思路。根据任务的可预测性，编排策略分为两大类。

定义

编排策略（Orchestration Strategy）是决定多Agent系统中"谁参与"和"如何协作"的规划方式。核心区别在于：Agent的角色和流程是提前固定好的（静态），还是根据任务动态决定的（动态）。

分类

类型	静态编排	动态编排
定义	预先设定好参与的Agent和协作流程	根据任务需求动态决定参与者和流程
灵活性	低，流程固定	高，按需组队
实现复杂度	低，配置即可	高，需要"元决策"能力
代表框架	MetaGPT	AgentVerse
适用场景	流程稳定、重复性高的任务	多变、非标准化的任务

核心原理

静态编排的逻辑是：如果任务流程是可预测的（比如软件开发总是"需求→设计→编码→测试"），那就提前把Agent和流程固定下来，每次按同样的方式执行。

动态编排的逻辑是：如果任务每次都不同（比如开放式的研究问题），就让一个"元Agent"先分析任务，然后动态决定需要招募哪些Agent、以什么方式协作。AgentVerse就是这种思路的代表，它包含四个阶段：

专家招募（Expert Recruitment）：根据任务招募合适的Agent
协作决策（Collaborative Decision）：多Agent讨论方案
行动执行（Action Execution）：执行决定的行动
评估反馈（Evaluation）：评估结果，决定是否继续迭代

类比

静态编排 = 固定菜单的餐厅：前菜、主菜、甜点的顺序是固定的，每桌客人都按同样的流程上菜。高效、可预期，但缺乏个性化。

动态编排 = 私人定制宴席：先了解客人的口味和需求，再决定请哪些厨师、做什么菜、按什么顺序上。灵活、个性化，但准备成本更高。

10.5 挑战与趋势

多Agent协作是一个仍在快速发展的领域。理解当前的挑战和未来趋势，有助于形成对这项技术的全面认知。

定义

多Agent协作的挑战是指在设计和运行多Agent系统时面临的技术和工程难题，包括协调复杂度、成本控制、冲突处理和调试困难等方面。

问题背景

多Agent协作带来了"团队"的好处，也带来了"团队"的问题。正如人类团队面临沟通成本、意见冲突、效率损耗等挑战，多Agent系统同样需要应对这些问题：

挑战	说明	应对方法
协调复杂	多个Agent之间需要明确的通信接口和协议	定义清晰的输入输出规范
成本较高	每个Agent都需要调用LLM，总调用次数成倍增加	优化调用策略，减少不必要的交互
意见冲突	Agent之间可能产生矛盾的输出	设置仲裁机制或投票规则
调试困难	问题可能出在任何一个Agent或它们之间的交互中	完善日志记录和监控
响应延迟	多轮Agent交互导致整体响应时间变长	尽可能并行处理

没有它会怎样

如果忽视这些挑战，多Agent系统可能出现"团队失灵"——Agent之间互相等待导致死锁、输出互相矛盾导致最终结果不可用、或者LLM调用费用远超预期。设计多Agent系统时，协调机制的设计与Agent本身的能力同样重要。

与其他概念的关系

多Agent协作的发展与AI生态中的几个趋势密切相关：

趋势	说明
标准化协议	像MCP统一了Agent与工具的对接方式一样，Agent之间的协作也在走向标准化
动态组队	根据任务自动组建最合适的Agent团队，无需预先固定配置
更强的自主性	Agent能自己判断任务复杂度，决定是否需要请"帮手"
专业化分工	更多面向垂直领域的专业Agent出现
去中心化	不依赖单一领导Agent，Agent之间平等协作

待补充需要一个多Agent系统在实际部署中遇到协调问题或成本问题的公开报道，用于说明这些挑战是真实存在的而非理论推测。

本章小结

知识点	一句话总结
多Agent协作	让多个专业Agent分工配合，解决单Agent无法高效完成的复杂任务
协作模式	四种基本模式——流水线（按序传递）、讨论（多角度汇总）、主从（一个协调多个执行）、辩论（对立质疑）
多Agent框架	MetaGPT、AutoGen等工具提供Agent创建、通信和编排的基础设施
编排策略	静态编排适合固定流程，动态编排适合多变任务
挑战与趋势	当前面临协调复杂和成本高的挑战，未来走向标准化和更强自主性

本章的核心认知：多Agent协作的本质是将人类社会的"分工合作"理念应用到AI系统中。它不是简单地增加Agent数量，而是通过合理的角色分配、明确的通信机制和适当的协作模式，让多个Agent形成一个高效的"团队"。正如一个好的团队需要明确的分工和良好的沟通，一个好的多Agent系统也需要精心设计的协作架构。

练习

思考题1

如果你要用多Agent来完成"策划一场生日派对"这个任务，你会设计哪些Agent？它们各自负责什么？采用哪种协作模式？请画出协作流程图。

思考题2

多Agent协作和人类团队协作有什么相似之处？又有什么根本性的不同？

提示：从沟通方式、决策机制、学习能力等角度思考。

思考题3

一个在线教育平台想用多Agent系统来自动生成课程内容。你认为应该设计哪些Agent角色？应该采用静态编排还是动态编排？为什么？

参考资料

multi-agent：多角色Agent协同合作 — 多Agent基本概念的中文介绍
multi-agent三种架构 — 协作模式的详细分析
2024年Multi-agent多智能体应用技术 — MetaGPT等框架的技术解读
MetaGPT官方文档 — MetaGPT框架的官方参考
AutoGen官方文档 — 微软AutoGen框架的官方文档
AgentMesh多智能体协作框架 — Agent协作框架的设计思路