本章包含5个知识点,帮你建立对AI Agent的完整认知框架:
AI Agent(智能体)是一种能够自主感知环境、做出决策、并执行行动来完成任务的AI系统。它以大语言模型为"大脑",但额外具备调用工具、管理记忆、规划步骤的能力,能够代替用户执行端到端的任务。
Agent这个英文词有多重含义:代理人(帮你做事的人)、特工(执行任务的人)、媒介(连接不同事物的中间人)。在AI领域,它强调的核心语义是"代表你去执行任务"。中文常译为"智能体",有时也直接使用英文"Agent"。
Agent不是一个全新的AI模型,而是一种架构模式。它和以下概念的关系需要厘清:
| 术语 | 是什么 | 类比 |
|---|---|---|
| AI | 人工智能,一个大领域 | "交通"这个大概念 |
| LLM | 大语言模型,AI的一种实现 | "汽车",一种交通工具 |
| ChatGPT | 一个具体的LLM产品 | "特斯拉Model 3",一款具体的车 |
| Agent | 能自主行动的AI系统 | "自动驾驶出租车",不只是车,还能带你去目的地 |
关键区分:LLM是Agent的核心组件之一,但Agent不等于LLM。Agent是在LLM基础上增加了工具使用、记忆管理和任务规划能力的完整系统。
LLM = 顾问,Agent = 助理
假设你想订一张明天去上海的机票。
问ChatGPT,它会告诉你:"你可以去携程、飞猪等平台查看航班",帮你分析价格、时间、航空公司的优劣,给出很好的建议。但最后,谁去买票?你自己。
而Agent的目标是:你说"帮我订明天去上海的机票",它真的去查航班、比价格、完成预订、把确认信息发给你。
LLM是超级聪明的顾问——知识渊博,分析到位,但所有行动得你自己来。Agent是能干的助理——你给目标,它去规划、执行、交付结果。
还有几组类比可以帮助加深理解:
"AI Agent是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。它基于大语言模型(LLM),具备自主理解感知、规划、记忆和使用工具的能力。"
—— 百度千帆,AI Agent技术详解
"AI智能体将是生成式AI的下一个前沿。"
—— 麦肯锡,2025 AI报告
LLM与Agent的核心区别在于:LLM是被动的文字生成器,接收输入并产出文本;Agent是主动的任务执行器,接收目标并通过规划、工具调用和持续行动来完成任务。这是从"只动嘴"到"能动手"的根本转变。
这种区别可以从四个维度来理解:
区别一:被动应答 vs 主动执行
LLM的工作模式:
你问一句 → 它答一句 → 停下来等你下一句
它永远不会主动做任何事。你不问,它就静静待着。
Agent的工作模式:
你给目标 → 它自己规划 → 执行步骤1 → 检查结果 → 执行步骤2 → ... → 交付成果
它会主动推进任务,不需要你一步步指挥。
区别二:只能说 vs 能做事
LLM的能力边界是文字:回答问题、生成文字、分析内容、翻译转换——全部是文本层面的操作。它无法上网搜索、发送邮件、操作文件、执行代码、控制软件。
Agent在LLM的文字能力之上,加上了真正的行动能力——可以调用搜索引擎、操作文件系统、执行代码、连接外部服务。
区别三:单轮问答 vs 持续工作
LLM的思维模式是"问答":每次对话关注当前这一轮,虽然有上下文记忆,但本质上是一问一答。
Agent有一个目标,会持续工作直到目标完成。中间可能经历多个步骤,每一步都是为了最终目标。它的记忆也更持久——不仅记住当前对话,还能跨会话保留信息。
区别四:知识固定 vs 实时更新
LLM的知识在训练完成后就固定了,它只知道训练数据截止时间之前的信息。
Agent可以通过搜索工具实时获取最新信息,知识边界不再受限于训练时间。
区别的根源在于架构层面的不同:
LLM是一个单一的语言模型——输入文本,输出文本,仅此而已。它的全部能力来自于模型参数中编码的知识。
Agent是一个系统——以LLM为核心决策引擎,但在外围接入了工具调用层、记忆管理层和任务规划层。LLM负责"想",其他组件负责"做"。
一张表格总结所有关键区别:
| 维度 | LLM | Agent |
|---|---|---|
| 本质 | 语言预测引擎 | 自主决策系统 |
| 行为 | 被动应答 | 主动规划执行 |
| 能力 | 只能输出文字 | 可调用工具、执行操作 |
| 记忆 | 仅当前对话 | 长短期记忆,可跨会话 |
| 知识 | 训练后固定 | 实时获取更新 |
| 目标 | 回答好当前问题 | 完成指定任务 |
| 监督 | 需要持续交互 | 最少到零监督 |
| 适合 | 问答、创作、分析 | 自动化、执行、多步骤任务 |
案例一:写一份市场分析报告
让LLM做——你说"帮我写一份中国新能源汽车市场分析报告",LLM输出一篇看起来很专业的文章。但它可能包含过时的数据,可能有编造的信息,没有真实来源,你需要自己去验证和补充。
让Agent做——同样的请求,Agent的工作流程是:
区别一目了然:LLM基于训练时的知识"编写",Agent基于实时获取的信息"研究并撰写"。
案例二:处理邮件
LLM能做的:帮你写邮件草稿、润色你写好的邮件、总结一封邮件的内容。
Agent能做的:自动查看收件箱、识别重要邮件并提醒你、对常规询问自动起草回复、按照指示发送邮件、把邮件中的待办事项提取出来添加到日程。
误区一:"Agent就是加了插件的ChatGPT"
插件只是让LLM多了一个工具,但使用插件时仍然是"你指挥,它执行"的模式。Agent的关键区别在于自主性——你给目标,它自己决定怎么做、用什么工具、按什么顺序。
误区二:"Agent能做所有事,LLM就没用了"
实际上,Agent的"大脑"就是LLM。对于纯文字任务(写作、翻译、分析),直接使用LLM更高效。Agent的优势在于需要多步骤执行和工具调用的复杂任务。选择LLM还是Agent,取决于任务是否需要"动手"。
前面我们讲了LLM和Agent的区别,但现实中并不是非黑即白的"要么是LLM,要么是Agent"。实际上,今天市面上的AI工具构成了一个从"纯聊天"到"全自主"的连续光谱,可以分为五个级别。
注意:同一个产品可能包含不同级别的功能。比如ChatGPT的基础对话是第一级,但它的Deep Research功能就是第三级。所以我们按具体功能来分类,而不是按产品名称。
| 项目 | 内容 |
|---|---|
| 数据获取范围 | 完全依赖用户手动输入 |
| 核心特征 | 纯文本对话,无工具调用,问一句答一句 |
| 自动化程度 | 手动交互 |
| 信任关系 | 零信任,AI无任何权限 |
| 典型功能 | ChatGPT 基础对话(关闭工具)、Claude 纯文本对话、GPT-3.5 对话、文心一言/豆包/Gemini 基础对话 |
这就是我们在前三章学到的LLM的原始形态——你输入文字,它输出文字,仅此而已。
| 项目 | 内容 |
|---|---|
| 数据获取范围 | 当前网页内容 / 互联网搜索结果 |
| 核心特征 | AI可读取网页或联网搜索,无需用户手动粘贴 |
| 自动化程度 | 半自动,仍是一问一答 |
| 信任关系 | 有限信任,授予网页读取权限 |
| 典型功能 | ChatGPT 联网搜索、Edge Copilot 网页侧边栏、Sider/Monica 浏览器插件、沉浸式翻译 |
第二级的关键进步是:AI的眼界从"你告诉它的内容"扩展到了"它自己能看到的网页"。但本质上还是一问一答,不会自主行动。
| 项目 | 内容 |
|---|---|
| 数据获取范围 | 互联网公开数据,可自主搜索多个来源 |
| 核心特征 | 自主规划多步骤任务,在云端独立执行,自动收集和整合数据 |
| 自动化程度 | 高自动,给目标后自主完成 |
| 信任关系 | 条件信任,授予外部数据访问权限 |
| 典型功能 | ChatGPT Deep Research、Google Gemini Deep Research、Manus 自主任务执行 |
从第三级开始,AI真正具备了"Agent"的特征——你给一个目标,它自己规划步骤、搜索信息、整合结果,不需要你一步步指挥。
Perplexity 的演化:Perplexity 是一个典型的跨级别演化案例。早期版本是搜索增强问答(第二级),当前版本已具备多步深度研究能力(第三级),且正在向本地集成方向发展,有向第四级演化的趋势。一个产品在不同阶段可以处于不同级别,这也说明了整个行业都在朝着更高自主性的方向演进。
| 项目 | 内容 |
|---|---|
| 数据获取范围 | 本地文件系统、项目代码、应用内数据 |
| 核心特征 | 可读取本地文件和项目上下文,与特定应用深度集成 |
| 自动化程度 | 中高自动,辅助+部分自主 |
| 信任关系 | 较高信任,授予本地文件读取权限 |
| 典型功能 | GitHub Copilot 代码补全、Cursor Tab补全 + Chat模式、Windsurf 编辑模式、Notion AI / Office Copilot |
第四级的关键突破是:AI能接触到你的"私有数据"——你的代码、你的文档、你的笔记。它不再局限于互联网上的公开信息,而是能理解你的具体工作上下文。
| 项目 | 内容 |
|---|---|
| 数据获取范围 | 完全本地访问,可读写整个文件系统 |
| 核心特征 | 可执行系统命令、创建/修改/删除文件,用户完全委托AI执行任务 |
| 自动化程度 | 全自动 |
| 信任关系 | 完全信任,授予系统级权限 |
| 典型功能 | Claude Code(CLI全自动编程)、Cursor Agent模式(终端+文件读写)、Aider / Trae Solo、Devin |
第五级是目前AI工具的最高形态——你不只是让AI"看"你的文件,而是让它"动手改"。它可以执行命令、修改代码、创建文件,真正做到"你说目标,它交付结果"。
渐进路径总结:从第一级到第五级,四条线同步演进:
| 维度 | 第一级 | 第二级 | 第三级 | 第四级 | 第五级 |
|---|---|---|---|---|---|
| 信息传递 | 手动输入 | 页面集成 | 云端自主获取 | 本地融合 | 全自动执行 |
| 权限范围 | 零权限 | 网页权限 | 外部数据权限 | 本地文件权限 | 系统级权限 |
| 自动化 | 被动应答 | 半自动辅助 | 自主规划 | 深度集成 | 全自动执行 |
| 信任关系 | 零信任 | 有限信任 | 条件信任 | 较高信任 | 完全信任 |
这个光谱帮助我们理解:LLM和Agent不是两个截然不同的东西,而是一个连续演进的过程。第一级是纯粹的LLM,第五级是完全的Agent,中间三个级别则是不同程度的过渡。当你使用任何AI工具时,都可以用这个框架来判断:它处于哪个级别?你给了它多少信任和权限?
前面我们说LLM只能输出文字。但这里有一个关键的洞察:计算机指令和程序代码,本身也是文字。
你在电脑上做的每一件事——打开一个网页、查看今天的天气、发送一封邮件——在计算机底层,都是一条条文字形式的指令在执行。而LLM恰好是一个极其擅长生成文字的系统。如果LLM生成的文字不是一段散文,而是一条计算机指令,那会怎样?
我们用一个具体的例子来看:
如果直接问LLM"现在几点了",它做不到——因为LLM没有时钟,它只会根据训练数据编一个时间给你,这个时间大概率是错的。
但如果我们在LLM外面包一层程序,事情就不一样了:
第一步:用户问"现在几点了?"
第二步:LLM分析这个问题,发现需要获取系统时间
→ LLM输出一条计算机命令:date
第三步:外层程序检测到LLM输出了一条命令
→ 在计算机上执行这条命令
→ 得到结果:"2025年12月15日 星期一 14:32:08"
第四步:把执行结果返回给LLM
第五步:LLM用自然语言回答用户:"现在是2025年12月15日下午2点32分。"
看到了吗?LLM本身没有获得任何新能力——它依然只是在"输出文字"。但因为它输出的这段文字恰好是一条可执行的计算机命令,而外层程序把这条命令真的执行了,LLM就间接地拥有了"查看时间"的能力。
这就是Agent的核心秘密:不是LLM变强了,而是有人写了一个程序,去解析LLM的输出,把其中的指令提取出来并执行。LLM负责"想"该执行什么命令,外层程序负责"做"——真正去执行这些命令。两者配合,就从"只能说"变成了"能做事"。
同样的原理可以推广到所有操作:
理解了这个根本前提,我们再来看:既然原理上可行,为什么Agent直到2024-2025年才真正爆发?因为还需要几个条件同时成熟。
Agent兴起的条件是指使AI Agent从理论概念走向实际可用的一组技术和市场前提。主要包括:模型能力达到临界点、工具调用技术标准化、生态协议建立、以及市场需求的爆发。
四个条件缺一不可:
条件一:模型够强了
以前的AI模型理解能力有限,经常"听错"指令。现在的GPT-4、Claude等模型能理解复杂、模糊的指令,能进行多步推理,犯错率大大降低。模型能力是Agent的"大脑"——大脑够聪明了,才能有效指挥"手脚"。
条件二:工具调用技术成熟了
2023年,OpenAI推出了Function Calling功能,让AI可以输出结构化的"调用指令"、准确指定要调用哪个工具、传递正确的参数。这就像给AI装上了"遥控器",可以按按钮操作外部系统。
条件三:生态协议建立了
2024年,Anthropic推出了MCP协议(Model Context Protocol),相当于AI工具的"USB-C接口"——开发一次到处可用,不同AI都能用同样的工具,大大降低了开发成本。随后OpenAI、Google等巨头纷纷采纳这一标准。
条件四:市场需求爆发了
企业发现:只是"聊天"的AI,价值有限;能真正干活的AI,才能提升效率。Agent是AI从"玩具"变成"工具"的关键。
如果把Agent比作自动驾驶汽车,那四个条件就像:
Agent市场的增长速度令人震撼:
| 指标 | 2024年 | 预测 |
|---|---|---|
| 全球AI Agent市场 | 51-53亿美元 | 471亿美元(2030年) |
| 年复合增长率 | — | 40-45% |
| 通用AI Agent | — | 526亿美元(2030年) |
来源:Markets and Markets / 36氪AI Agent报告
区域市场对比(2025年):
| 地区 | 市场规模 | 特点 |
|---|---|---|
| 美国 | 约1500亿美元 | 消费级主导 |
| 欧洲 | 约1000亿美元 | 企业级主导 |
| 中国 | 约800亿美元 | 增速25-30% |
行业预测:
| 预测机构 | 预测内容 | 时间节点 |
|---|---|---|
| Gartner | 15%日常决策由Agent自主完成 | 2028年 |
| Gartner | 33%企业软件包含Agent功能 | 2028年 |
| 德勤 | 50%使用生成式AI的企业将部署Agent | 2027年 |
| IDC | 50%中国500强使用AI Agent | 2026年 |
2025年:"Agent元年"的标志性事件
来源:53AI Manus报道
Agent的应用场景是指那些需要AI不仅"给建议"还要"动手做"的任务领域。其核心特征是:任务包含多个步骤、需要调用外部工具或系统、需要持续推进直到完成。
Agent的应用可以分为三大类:
个人生活应用:
职场应用:
行业应用:
| 行业 | Agent能做什么 | 渗透率(2025年) |
|---|---|---|
| 金融 | 自动化交易、风险监控、智能投顾 | >30% |
| 电商 | 智能客服、个性化推荐、库存管理 | >30% |
| 医疗 | 预诊分诊、病历整理、用药提醒 | ~20% |
| 制造 | 设备监控、故障预测、生产调度 | <20% |
| 教育 | 个性化教学、自动批改、学情分析 | ~15% |
什么任务适合Agent,什么任务LLM就够了?判断标准很简单:
麦肯锡咨询公司的Agent实践:
| 项目 | 详情 |
|---|---|
| 场景 | 项目受理流程自动化 |
| 优化前 | 分配一个项目需要20天 |
| 优化后 | 只需要2天 |
| 效率提升 | 90%(10倍) |
Agent完成的工作包括:自动读取项目需求、匹配合适的咨询师、协调各方时间、准备项目材料、通知相关人员。这些以前需要人工一个个确认、协调的工作,现在由Agent自动完成。
其他行业案例:
| 行业 | 应用 | 效果 |
|---|---|---|
| 零售 | AWS/阿里智能供应链 | 区域化精准补货 |
| 医疗 | 推想医疗辅助诊断 | 降低基层误诊率 |
| 工业 | 西门子/施耐德缺陷检测 | 缺陷识别准确率99%+ |
麦肯锡调研数据(使用Agent的企业反馈):
| 效果 | 占比 |
|---|---|
| 感觉更有创新力 | 64% |
| 盈利能力提高 | 36% |
| 收入增长 | 33% |
| 市场份额提升 | 25% |
来源:麦肯锡2025 AI报告
Agent的组成公式是:Agent = LLM(大脑)+ 记忆(Memory)+ 工具(Tools)+ 规划(Planning)。这四个组件共同构成了一个能够自主完成任务的AI系统。
| 组件 | 作用 | 类比 |
|---|---|---|
| LLM(大脑) | 思考、理解、决策的核心引擎 | 人的大脑 |
| 记忆(Memory) | 记住上下文、历史信息、用户偏好 | 人的记忆力 |
| 工具(Tools) | 搜索、读写文件、调用API、执行代码 | 人的手和脚 |
| 规划(Planning) | 把大任务拆成小步骤,有序执行 | 人的计划表 |
为什么LLM本身不够?逐个来看:
| 能力 | 只有LLM | 加上其他组件 |
|---|---|---|
| 记住上周说的话 | 做不到 | 长期记忆 |
| 查最新的信息 | 做不到 | 搜索工具 |
| 发一封邮件 | 做不到 | 邮件工具 |
| 执行代码验证 | 做不到 | 代码执行器 |
| 操作你的电脑 | 做不到 | 系统权限 |
每一项"做不到",都是因为缺少了某个组件。Agent把这些组件组合起来,让LLM从一个"只能说"的大脑,变成一个"能做事"的完整系统。
吴恩达(Andrew Ng)提出了Agent的四大核心设计模式,为这个公式提供了更具体的实现框架:
| 设计模式 | 描述 | 对应组件 |
|---|---|---|
| 自我反思(Reflection) | 自我修正,发现错误并改正 | 规划 + LLM |
| 使用工具(Tool Use) | 链接外部系统,执行操作 | 工具 |
| 规划(Planning) | 分解复杂任务,找到执行路径 | 规划 |
| 协作(Multi-agent) | 多Agent组队,分工合作 | 多Agent架构 |
┌─────────────────────────────────┐ │ AI Agent │ │ │ │ ┌───────────────────────┐ │ │ │ LLM(大脑) │ │ │ │ 理解 → 决策 → 输出 │ │ │ └───────────┬───────────┘ │ │ │ │ │ ┌───────────┼───────────┐ │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌─────┐ ┌─────┐ ┌──────┐ │ │ │记忆 │ │工具 │ │ 规划 │ │ │ │短期 │ │搜索 │ │ 分解 │ │ │ │长期 │ │文件 │ │ 排序 │ │ │ │偏好 │ │API │ │ 执行 │ │ │ └─────┘ └─────┘ └──────┘ │ │ │ └─────────────────────────────────┘
| 知识点 | 一句话总结 |
|---|---|
| AI Agent | 能自主感知、决策、行动的AI系统,以LLM为大脑,加上工具、记忆和规划能力 |
| LLM与Agent的核心区别 | LLM是被动的文字生成器,Agent是主动的任务执行器——从"只动嘴"到"能动手" |
| Agent兴起的条件 | 模型够强、工具调用成熟、生态协议建立、市场需求爆发,四个条件同时到位 |
| Agent的应用场景 | 个人生活、职场、各行业中需要多步骤执行和工具调用的任务 |
| Agent的组成公式 | Agent = LLM(大脑)+ 记忆 + 工具 + 规划,四个组件缺一不可 |
本章的核心认知:LLM是超级聪明的顾问,能给你最好的建议;Agent是能干的助理,能帮你把事情做完。从"我来告诉你怎么做"到"我来帮你做"——这就是AI能力的一次关键进化。理解了这个区别,你就明白了为什么整个行业都在从"对话AI"走向"行动AI"。
回顾你日常工作中的任务,列出3个"只需要建议"的任务(LLM能搞定)和3个"需要多步骤执行"的任务(需要Agent)。思考它们的区别在哪里。
如果你有一个完美的AI Agent助理,你最希望它帮你完成什么任务?这个任务需要调用哪些工具?涉及几个步骤?
如果你使用过带有联网或插件功能的AI工具(如ChatGPT的浏览功能、Perplexity等),回忆一下:当AI可以"做事"(搜索、执行)而不只是"说话"时,你的体验有什么不同?用本章学到的"LLM vs Agent"框架来分析这种体验差异。