Chapter 04

LLM与Agent的本质区别

核心问题　同样基于大语言模型，为什么有的AI只能给建议，有的AI却能帮你把事做完？ 阅读收获　理解LLM和Agent的本质差异，知道Agent为什么是AI从"能说"到"能做"的关键进化

本章概览

本章包含5个知识点，帮你建立对AI Agent的完整认知框架：

AI Agent的定义（基础概念） │ └──→ LLM与Agent的核心区别（本章主旨） │ ├──→ Agent兴起的条件（为什么是现在） │ ├──→ Agent的应用场景（能用在哪里） │ └──→ Agent的组成公式（由什么构成：LLM + 记忆 + 工具 + 规划）

阅读建议：前两节是核心——理解Agent是什么、和LLM有何不同。如果时间有限，读完这两节就能建立关键认知。后三节帮助你理解Agent为什么重要、怎么用、怎么构成。

4.1 AI Agent

在第一章中，我们知道了大语言模型的本质是"预测下一个词"。它很聪明，但有一个根本局限——它只能输出文字。而Agent要做的，是打破这个局限。

定义

AI Agent（智能体）是一种能够自主感知环境、做出决策、并执行行动来完成任务的AI系统。它以大语言模型为"大脑"，但额外具备调用工具、管理记忆、规划步骤的能力，能够代替用户执行端到端的任务。

术语说明

Agent这个英文词有多重含义：代理人（帮你做事的人）、特工（执行任务的人）、媒介（连接不同事物的中间人）。在AI领域，它强调的核心语义是"代表你去执行任务"。中文常译为"智能体"，有时也直接使用英文"Agent"。

边界界定

Agent不是一个全新的AI模型，而是一种架构模式。它和以下概念的关系需要厘清：

术语	是什么	类比
AI	人工智能，一个大领域	"交通"这个大概念
LLM	大语言模型，AI的一种实现	"汽车"，一种交通工具
ChatGPT	一个具体的LLM产品	"特斯拉Model 3"，一款具体的车
Agent	能自主行动的AI系统	"自动驾驶出租车"，不只是车，还能带你去目的地

关键区分：LLM是Agent的核心组件之一，但Agent不等于LLM。Agent是在LLM基础上增加了工具使用、记忆管理和任务规划能力的完整系统。

类比

LLM = 顾问，Agent = 助理

假设你想订一张明天去上海的机票。

问ChatGPT，它会告诉你："你可以去携程、飞猪等平台查看航班"，帮你分析价格、时间、航空公司的优劣，给出很好的建议。但最后，谁去买票？你自己。

而Agent的目标是：你说"帮我订明天去上海的机票"，它真的去查航班、比价格、完成预订、把确认信息发给你。

LLM是超级聪明的顾问——知识渊博，分析到位，但所有行动得你自己来。Agent是能干的助理——你给目标，它去规划、执行、交付结果。

对比

还有几组类比可以帮助加深理解：

百科全书 vs 管家：LLM像一本会说话的百科全书，你问什么它答什么；Agent像能干活的管家，你吩咐一件事，它帮你张罗到位
游戏攻略 vs 代练：LLM给你攻略告诉你怎么打，Agent直接帮你把任务打完
导航软件 vs 自动驾驶：LLM告诉你怎么走，Agent直接把你送到目的地

权威引用

"AI Agent是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。它基于大语言模型（LLM），具备自主理解感知、规划、记忆和使用工具的能力。"

—— 百度千帆，AI Agent技术详解

"AI智能体将是生成式AI的下一个前沿。"

—— 麦肯锡，2025 AI报告

4.2 LLM与Agent的核心区别

理解了Agent的定义之后，最关键的问题是：它和我们已经熟悉的大语言模型，到底有什么本质不同？这些区别不是程度上的差异，而是能力维度上的跃迁。

定义

LLM与Agent的核心区别在于：LLM是被动的文字生成器，接收输入并产出文本；Agent是主动的任务执行器，接收目标并通过规划、工具调用和持续行动来完成任务。这是从"只动嘴"到"能动手"的根本转变。

分类/分型

这种区别可以从四个维度来理解：

区别一：被动应答 vs 主动执行

LLM的工作模式：

你问一句 → 它答一句 → 停下来等你下一句

它永远不会主动做任何事。你不问，它就静静待着。

Agent的工作模式：

你给目标 → 它自己规划 → 执行步骤1 → 检查结果 → 执行步骤2 → ... → 交付成果

它会主动推进任务，不需要你一步步指挥。

区别二：只能说 vs 能做事

LLM的能力边界是文字：回答问题、生成文字、分析内容、翻译转换——全部是文本层面的操作。它无法上网搜索、发送邮件、操作文件、执行代码、控制软件。

Agent在LLM的文字能力之上，加上了真正的行动能力——可以调用搜索引擎、操作文件系统、执行代码、连接外部服务。

区别三：单轮问答 vs 持续工作

LLM的思维模式是"问答"：每次对话关注当前这一轮，虽然有上下文记忆，但本质上是一问一答。

Agent有一个目标，会持续工作直到目标完成。中间可能经历多个步骤，每一步都是为了最终目标。它的记忆也更持久——不仅记住当前对话，还能跨会话保留信息。

区别四：知识固定 vs 实时更新

LLM的知识在训练完成后就固定了，它只知道训练数据截止时间之前的信息。

Agent可以通过搜索工具实时获取最新信息，知识边界不再受限于训练时间。

核心原理

区别的根源在于架构层面的不同：

LLM是一个单一的语言模型——输入文本，输出文本，仅此而已。它的全部能力来自于模型参数中编码的知识。

Agent是一个系统——以LLM为核心决策引擎，但在外围接入了工具调用层、记忆管理层和任务规划层。LLM负责"想"，其他组件负责"做"。

对比

一张表格总结所有关键区别：

维度	LLM	Agent
本质	语言预测引擎	自主决策系统
行为	被动应答	主动规划执行
能力	只能输出文字	可调用工具、执行操作
记忆	仅当前对话	长短期记忆，可跨会话
知识	训练后固定	实时获取更新
目标	回答好当前问题	完成指定任务
监督	需要持续交互	最少到零监督
适合	问答、创作、分析	自动化、执行、多步骤任务

构造案例

案例一：写一份市场分析报告

让LLM做——你说"帮我写一份中国新能源汽车市场分析报告"，LLM输出一篇看起来很专业的文章。但它可能包含过时的数据，可能有编造的信息，没有真实来源，你需要自己去验证和补充。

让Agent做——同样的请求，Agent的工作流程是：

规划：确定报告需要哪些部分（市场规模、主要玩家、政策环境、技术趋势）
搜索：上网搜索最新的行业数据
读取：访问政府公开数据、行业报告
整理：把搜集的信息汇总分类
写作：基于真实数据撰写报告
检查：核实数据来源，标注引用
交付：生成带有数据来源的完整报告

区别一目了然：LLM基于训练时的知识"编写"，Agent基于实时获取的信息"研究并撰写"。

案例二：处理邮件

LLM能做的：帮你写邮件草稿、润色你写好的邮件、总结一封邮件的内容。

Agent能做的：自动查看收件箱、识别重要邮件并提醒你、对常规询问自动起草回复、按照指示发送邮件、把邮件中的待办事项提取出来添加到日程。

常见误区

误区一："Agent就是加了插件的ChatGPT"

插件只是让LLM多了一个工具，但使用插件时仍然是"你指挥，它执行"的模式。Agent的关键区别在于自主性——你给目标，它自己决定怎么做、用什么工具、按什么顺序。

误区二："Agent能做所有事，LLM就没用了"

实际上，Agent的"大脑"就是LLM。对于纯文字任务（写作、翻译、分析），直接使用LLM更高效。Agent的优势在于需要多步骤执行和工具调用的复杂任务。选择LLM还是Agent，取决于任务是否需要"动手"。

AI工具的五级光谱

前面我们讲了LLM和Agent的区别，但现实中并不是非黑即白的"要么是LLM，要么是Agent"。实际上，今天市面上的AI工具构成了一个从"纯聊天"到"全自主"的连续光谱，可以分为五个级别。

注意：同一个产品可能包含不同级别的功能。比如ChatGPT的基础对话是第一级，但它的Deep Research功能就是第三级。所以我们按具体功能来分类，而不是按产品名称。

第一级：原始聊天Bot

项目	内容
数据获取范围	完全依赖用户手动输入
核心特征	纯文本对话，无工具调用，问一句答一句
自动化程度	手动交互
信任关系	零信任，AI无任何权限
典型功能	ChatGPT 基础对话（关闭工具）、Claude 纯文本对话、GPT-3.5 对话、文心一言/豆包/Gemini 基础对话

这就是我们在前三章学到的LLM的原始形态——你输入文字，它输出文字，仅此而已。

第二级：浏览器集成 / 联网增强

项目	内容
数据获取范围	当前网页内容 / 互联网搜索结果
核心特征	AI可读取网页或联网搜索，无需用户手动粘贴
自动化程度	半自动，仍是一问一答
信任关系	有限信任，授予网页读取权限
典型功能	ChatGPT 联网搜索、Edge Copilot 网页侧边栏、Sider/Monica 浏览器插件、沉浸式翻译

第二级的关键进步是：AI的眼界从"你告诉它的内容"扩展到了"它自己能看到的网页"。但本质上还是一问一答，不会自主行动。

第三级：云端运行Agent

项目	内容
数据获取范围	互联网公开数据，可自主搜索多个来源
核心特征	自主规划多步骤任务，在云端独立执行，自动收集和整合数据
自动化程度	高自动，给目标后自主完成
信任关系	条件信任，授予外部数据访问权限
典型功能	ChatGPT Deep Research、Google Gemini Deep Research、Manus 自主任务执行

从第三级开始，AI真正具备了"Agent"的特征——你给一个目标，它自己规划步骤、搜索信息、整合结果，不需要你一步步指挥。

Perplexity 的演化：Perplexity 是一个典型的跨级别演化案例。早期版本是搜索增强问答（第二级），当前版本已具备多步深度研究能力（第三级），且正在向本地集成方向发展，有向第四级演化的趋势。一个产品在不同阶段可以处于不同级别，这也说明了整个行业都在朝着更高自主性的方向演进。

第四级：桌面应用 / 本地集成

项目	内容
数据获取范围	本地文件系统、项目代码、应用内数据
核心特征	可读取本地文件和项目上下文，与特定应用深度集成
自动化程度	中高自动，辅助+部分自主
信任关系	较高信任，授予本地文件读取权限
典型功能	GitHub Copilot 代码补全、Cursor Tab补全 + Chat模式、Windsurf 编辑模式、Notion AI / Office Copilot

第四级的关键突破是：AI能接触到你的"私有数据"——你的代码、你的文档、你的笔记。它不再局限于互联网上的公开信息，而是能理解你的具体工作上下文。

第五级：全自主 / 系统级权限

项目	内容
数据获取范围	完全本地访问，可读写整个文件系统
核心特征	可执行系统命令、创建/修改/删除文件，用户完全委托AI执行任务
自动化程度	全自动
信任关系	完全信任，授予系统级权限
典型功能	Claude Code（CLI全自动编程）、Cursor Agent模式（终端+文件读写）、Aider / Trae Solo、Devin

第五级是目前AI工具的最高形态——你不只是让AI"看"你的文件，而是让它"动手改"。它可以执行命令、修改代码、创建文件，真正做到"你说目标，它交付结果"。

渐进路径总结：从第一级到第五级，四条线同步演进：

维度	第一级	第二级	第三级	第四级	第五级
信息传递	手动输入	页面集成	云端自主获取	本地融合	全自动执行
权限范围	零权限	网页权限	外部数据权限	本地文件权限	系统级权限
自动化	被动应答	半自动辅助	自主规划	深度集成	全自动执行
信任关系	零信任	有限信任	条件信任	较高信任	完全信任

这个光谱帮助我们理解：LLM和Agent不是两个截然不同的东西，而是一个连续演进的过程。第一级是纯粹的LLM，第五级是完全的Agent，中间三个级别则是不同程度的过渡。当你使用任何AI工具时，都可以用这个框架来判断：它处于哪个级别？你给了它多少信任和权限？

4.3 Agent兴起的条件

Agent的概念并不新——在计算机科学领域，"智能体"的研究已有数十年历史。但为什么Agent在2024-2025年突然从学术概念变成了产业热潮？要回答这个问题，我们先要理解一个根本前提：为什么LLM在原理上能够变成Agent。

根本前提：为什么LLM能变成Agent

前面我们说LLM只能输出文字。但这里有一个关键的洞察：计算机指令和程序代码，本身也是文字。

你在电脑上做的每一件事——打开一个网页、查看今天的天气、发送一封邮件——在计算机底层，都是一条条文字形式的指令在执行。而LLM恰好是一个极其擅长生成文字的系统。如果LLM生成的文字不是一段散文，而是一条计算机指令，那会怎样？

我们用一个具体的例子来看：

例子：让AI告诉你现在几点了

如果直接问LLM"现在几点了"，它做不到——因为LLM没有时钟，它只会根据训练数据编一个时间给你，这个时间大概率是错的。

但如果我们在LLM外面包一层程序，事情就不一样了：

第一步：用户问"现在几点了？"

第二步：LLM分析这个问题，发现需要获取系统时间
        → LLM输出一条计算机命令：date

第三步：外层程序检测到LLM输出了一条命令
        → 在计算机上执行这条命令
        → 得到结果："2025年12月15日 星期一 14:32:08"

第四步：把执行结果返回给LLM

第五步：LLM用自然语言回答用户："现在是2025年12月15日下午2点32分。"

看到了吗？LLM本身没有获得任何新能力——它依然只是在"输出文字"。但因为它输出的这段文字恰好是一条可执行的计算机命令，而外层程序把这条命令真的执行了，LLM就间接地拥有了"查看时间"的能力。

这就是Agent的核心秘密：不是LLM变强了，而是有人写了一个程序，去解析LLM的输出，把其中的指令提取出来并执行。LLM负责"想"该执行什么命令，外层程序负责"做"——真正去执行这些命令。两者配合，就从"只能说"变成了"能做事"。

同样的原理可以推广到所有操作：

LLM输出"搜索：2025年新能源汽车销量" → 外层程序调用搜索引擎 → 返回搜索结果
LLM输出"发送邮件：收件人xxx，内容xxx" → 外层程序调用邮件服务 → 邮件发出
LLM输出一段Python代码 → 外层程序执行这段代码 → 返回运行结果

理解了这个根本前提，我们再来看：既然原理上可行，为什么Agent直到2024-2025年才真正爆发？因为还需要几个条件同时成熟。

定义

Agent兴起的条件是指使AI Agent从理论概念走向实际可用的一组技术和市场前提。主要包括：模型能力达到临界点、工具调用技术标准化、生态协议建立、以及市场需求的爆发。

关键组件

四个条件缺一不可：

条件一：模型够强了

以前的AI模型理解能力有限，经常"听错"指令。现在的GPT-4、Claude等模型能理解复杂、模糊的指令，能进行多步推理，犯错率大大降低。模型能力是Agent的"大脑"——大脑够聪明了，才能有效指挥"手脚"。

条件二：工具调用技术成熟了

2023年，OpenAI推出了Function Calling功能，让AI可以输出结构化的"调用指令"、准确指定要调用哪个工具、传递正确的参数。这就像给AI装上了"遥控器"，可以按按钮操作外部系统。

条件三：生态协议建立了

2024年，Anthropic推出了MCP协议（Model Context Protocol），相当于AI工具的"USB-C接口"——开发一次到处可用，不同AI都能用同样的工具，大大降低了开发成本。随后OpenAI、Google等巨头纷纷采纳这一标准。

条件四：市场需求爆发了

企业发现：只是"聊天"的AI，价值有限；能真正干活的AI，才能提升效率。Agent是AI从"玩具"变成"工具"的关键。

类比

如果把Agent比作自动驾驶汽车，那四个条件就像：

模型能力 = 车载AI芯片够强（大脑成熟）
工具调用 = 方向盘、油门、刹车的接口标准化（操控成熟）
生态协议 = 交通规则和路标统一（基础设施成熟）
市场需求 = 人们确实需要解放双手（需求成熟）

数据支撑

Agent市场的增长速度令人震撼：

指标	2024年	预测
全球AI Agent市场	51-53亿美元	471亿美元（2030年）
年复合增长率	—	40-45%
通用AI Agent	—	526亿美元（2030年）

来源：Markets and Markets / 36氪AI Agent报告

区域市场对比（2025年）：

地区	市场规模	特点
美国	约1500亿美元	消费级主导
欧洲	约1000亿美元	企业级主导
中国	约800亿美元	增速25-30%

行业预测：

预测机构	预测内容	时间节点
Gartner	15%日常决策由Agent自主完成	2028年
Gartner	33%企业软件包含Agent功能	2028年
德勤	50%使用生成式AI的企业将部署Agent	2027年
IDC	50%中国500强使用AI Agent	2026年

真实案例

2025年："Agent元年"的标志性事件

Manus发布（2025年3月）：中国团队Monica.im推出全球首款通用型AI Agent，在GAIA基准测试中取得86.5%的成绩，超越OpenAI的Deep Research（70.1%），获得Benchmark领投的7500万美元融资
MCP协议被广泛采纳：Anthropic发布的MCP协议成为事实上的行业标准，OpenAI、Google等巨头相继支持
Deep Research上线：展示了Agent在科研级信息搜索领域的能力——信息有出处、能跳转、能复核
产品密集发布：字节扣子、百度千帆、蚂蚁等平台密集推出Agent产品

来源：53AI Manus报道

4.4 Agent的应用场景

了解了Agent是什么和为什么兴起之后，一个自然的问题是：它到底能用在哪里？答案是——几乎所有需要"多步骤执行"的任务。

定义

Agent的应用场景是指那些需要AI不仅"给建议"还要"动手做"的任务领域。其核心特征是：任务包含多个步骤、需要调用外部工具或系统、需要持续推进直到完成。

分类/分型

Agent的应用可以分为三大类：

个人生活应用：

智能购物助手：在多个平台比价，找到最优惠选项，帮你下单
旅行规划：自动查机票酒店，规划行程，预订餐厅和景点门票
学习助手：根据目标制定计划，搜索资料，追踪进度，针对薄弱点调整
健康管理：记录饮食运动，分析数据，提醒吃药体检

职场应用：

会议助手：自动记录内容，提取待办，发送纪要，安排后续会议
邮件管理：筛选重要邮件，自动起草回复，追踪跟进事项
数据分析：从多个系统收集数据，生成报告，发现异常并预警
客户服务：24小时自动回复，处理退换货，升级复杂问题给人工

行业应用：

行业	Agent能做什么	渗透率（2025年）
金融	自动化交易、风险监控、智能投顾	>30%
电商	智能客服、个性化推荐、库存管理	>30%
医疗	预诊分诊、病历整理、用药提醒	~20%
制造	设备监控、故障预测、生产调度	<20%
教育	个性化教学、自动批改、学情分析	~15%

适用场景

什么任务适合Agent，什么任务LLM就够了？判断标准很简单：

只需要信息和建议 → 用LLM：写作、翻译、分析、问答
需要多步骤执行 → 用Agent：调研、采购、流程管理
需要调用外部系统 → 用Agent：发邮件、查数据、操作文件
需要持续跟踪 → 用Agent：项目管理、进度追踪、异常监控

真实案例

麦肯锡咨询公司的Agent实践：

项目	详情
场景	项目受理流程自动化
优化前	分配一个项目需要20天
优化后	只需要2天
效率提升	90%（10倍）

Agent完成的工作包括：自动读取项目需求、匹配合适的咨询师、协调各方时间、准备项目材料、通知相关人员。这些以前需要人工一个个确认、协调的工作，现在由Agent自动完成。

其他行业案例：

行业	应用	效果
零售	AWS/阿里智能供应链	区域化精准补货
医疗	推想医疗辅助诊断	降低基层误诊率
工业	西门子/施耐德缺陷检测	缺陷识别准确率99%+

麦肯锡调研数据（使用Agent的企业反馈）：

效果	占比
感觉更有创新力	64%
盈利能力提高	36%
收入增长	33%
市场份额提升	25%

来源：麦肯锡2025 AI报告

4.5 Agent的组成公式

前面我们反复提到Agent比LLM多了"工具"、"记忆"、"规划"等能力。那么Agent到底是由什么组成的？这里给出一个简洁的框架。

定义

Agent的组成公式是：Agent = LLM（大脑）+ 记忆（Memory）+ 工具（Tools）+ 规划（Planning）。这四个组件共同构成了一个能够自主完成任务的AI系统。

关键组件

组件	作用	类比
LLM（大脑）	思考、理解、决策的核心引擎	人的大脑
记忆（Memory）	记住上下文、历史信息、用户偏好	人的记忆力
工具（Tools）	搜索、读写文件、调用API、执行代码	人的手和脚
规划（Planning）	把大任务拆成小步骤，有序执行	人的计划表

没有它会怎样

为什么LLM本身不够？逐个来看：

能力	只有LLM	加上其他组件
记住上周说的话	做不到	长期记忆
查最新的信息	做不到	搜索工具
发一封邮件	做不到	邮件工具
执行代码验证	做不到	代码执行器
操作你的电脑	做不到	系统权限

每一项"做不到"，都是因为缺少了某个组件。Agent把这些组件组合起来，让LLM从一个"只能说"的大脑，变成一个"能做事"的完整系统。

与其他概念的关系

吴恩达（Andrew Ng）提出了Agent的四大核心设计模式，为这个公式提供了更具体的实现框架：

设计模式	描述	对应组件
自我反思（Reflection）	自我修正，发现错误并改正	规划 + LLM
使用工具（Tool Use）	链接外部系统，执行操作	工具
规划（Planning）	分解复杂任务，找到执行路径	规划
协作（Multi-agent）	多Agent组队，分工合作	多Agent架构

来源：吴恩达AI Agent设计模式

可视化

┌─────────────────────────────────┐
│           AI Agent              │
│                                 │
│   ┌───────────────────────┐     │
│   │    LLM（大脑）         │     │
│   │  理解 → 决策 → 输出    │     │
│   └───────────┬───────────┘     │
│               │                 │
│   ┌───────────┼───────────┐     │
│   │           │           │     │
│   ▼           ▼           ▼     │
│ ┌─────┐  ┌─────┐  ┌──────┐    │
│ │记忆  │  │工具  │  │ 规划 │    │
│ │短期  │  │搜索  │  │ 分解 │    │
│ │长期  │  │文件  │  │ 排序 │    │
│ │偏好  │  │API   │  │ 执行 │    │
│ └─────┘  └─────┘  └──────┘    │
│                                 │
└─────────────────────────────────┘

本章小结

知识点	一句话总结
AI Agent	能自主感知、决策、行动的AI系统，以LLM为大脑，加上工具、记忆和规划能力
LLM与Agent的核心区别	LLM是被动的文字生成器，Agent是主动的任务执行器——从"只动嘴"到"能动手"
Agent兴起的条件	模型够强、工具调用成熟、生态协议建立、市场需求爆发，四个条件同时到位
Agent的应用场景	个人生活、职场、各行业中需要多步骤执行和工具调用的任务
Agent的组成公式	Agent = LLM（大脑）+ 记忆 + 工具 + 规划，四个组件缺一不可

本章的核心认知：LLM是超级聪明的顾问，能给你最好的建议；Agent是能干的助理，能帮你把事情做完。从"我来告诉你怎么做"到"我来帮你做"——这就是AI能力的一次关键进化。理解了这个区别，你就明白了为什么整个行业都在从"对话AI"走向"行动AI"。

练习

思考题1

回顾你日常工作中的任务，列出3个"只需要建议"的任务（LLM能搞定）和3个"需要多步骤执行"的任务（需要Agent）。思考它们的区别在哪里。

思考题2

如果你有一个完美的AI Agent助理，你最希望它帮你完成什么任务？这个任务需要调用哪些工具？涉及几个步骤？

实践练习

如果你使用过带有联网或插件功能的AI工具（如ChatGPT的浏览功能、Perplexity等），回忆一下：当AI可以"做事"（搜索、执行）而不只是"说话"时，你的体验有什么不同？用本章学到的"LLM vs Agent"框架来分析这种体验差异。

参考资料

百度千帆，AI Agent到底是什么 — Agent的定义和技术架构
百度千帆，为什么AI都朝Agent发展 — Agent兴起的动因分析
知乎，用通俗方式解释Agent/智能体 — 面向非技术读者的解释
CSDN，LLM vs Agent区别 — 详细技术对比
知乎，2025年AI Agent行业深度报告 — 市场规模和趋势数据
36氪，2025全球企业级AI Agent厂商 — 市场格局
知乎，从Manus到DeepSearcher十大AI Agent — 2025年代表性产品
吴恩达，AI Agent设计模式 — Agent四大设计模式