Chapter 04

LLM与Agent的本质区别

核心问题 同样基于大语言模型,为什么有的AI只能给建议,有的AI却能帮你把事做完? 阅读收获 理解LLM和Agent的本质差异,知道Agent为什么是AI从"能说"到"能做"的关键进化

本章概览

本章包含5个知识点,帮你建立对AI Agent的完整认知框架:

AI Agent的定义(基础概念) │ └──→ LLM与Agent的核心区别(本章主旨) │ ├──→ Agent兴起的条件(为什么是现在) │ ├──→ Agent的应用场景(能用在哪里) │ └──→ Agent的组成公式(由什么构成:LLM + 记忆 + 工具 + 规划)
阅读建议:前两节是核心——理解Agent是什么、和LLM有何不同。如果时间有限,读完这两节就能建立关键认知。后三节帮助你理解Agent为什么重要、怎么用、怎么构成。

4.1 AI Agent

在第一章中,我们知道了大语言模型的本质是"预测下一个词"。它很聪明,但有一个根本局限——它只能输出文字。而Agent要做的,是打破这个局限。
定义

AI Agent(智能体)是一种能够自主感知环境、做出决策、并执行行动来完成任务的AI系统。它以大语言模型为"大脑",但额外具备调用工具、管理记忆、规划步骤的能力,能够代替用户执行端到端的任务。

术语说明

Agent这个英文词有多重含义:代理人(帮你做事的人)、特工(执行任务的人)、媒介(连接不同事物的中间人)。在AI领域,它强调的核心语义是"代表你去执行任务"。中文常译为"智能体",有时也直接使用英文"Agent"。

边界界定

Agent不是一个全新的AI模型,而是一种架构模式。它和以下概念的关系需要厘清:

术语是什么类比
AI人工智能,一个大领域"交通"这个大概念
LLM大语言模型,AI的一种实现"汽车",一种交通工具
ChatGPT一个具体的LLM产品"特斯拉Model 3",一款具体的车
Agent能自主行动的AI系统"自动驾驶出租车",不只是车,还能带你去目的地

关键区分:LLM是Agent的核心组件之一,但Agent不等于LLM。Agent是在LLM基础上增加了工具使用、记忆管理和任务规划能力的完整系统。

类比

LLM = 顾问,Agent = 助理

假设你想订一张明天去上海的机票。

问ChatGPT,它会告诉你:"你可以去携程、飞猪等平台查看航班",帮你分析价格、时间、航空公司的优劣,给出很好的建议。但最后,谁去买票?你自己。

而Agent的目标是:你说"帮我订明天去上海的机票",它真的去查航班、比价格、完成预订、把确认信息发给你。

LLM是超级聪明的顾问——知识渊博,分析到位,但所有行动得你自己来。Agent是能干的助理——你给目标,它去规划、执行、交付结果。

对比

还有几组类比可以帮助加深理解:

  • 百科全书 vs 管家:LLM像一本会说话的百科全书,你问什么它答什么;Agent像能干活的管家,你吩咐一件事,它帮你张罗到位
  • 游戏攻略 vs 代练:LLM给你攻略告诉你怎么打,Agent直接帮你把任务打完
  • 导航软件 vs 自动驾驶:LLM告诉你怎么走,Agent直接把你送到目的地
权威引用

"AI Agent是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。它基于大语言模型(LLM),具备自主理解感知、规划、记忆和使用工具的能力。"

—— 百度千帆,AI Agent技术详解

"AI智能体将是生成式AI的下一个前沿。"

—— 麦肯锡,2025 AI报告

4.2 LLM与Agent的核心区别

理解了Agent的定义之后,最关键的问题是:它和我们已经熟悉的大语言模型,到底有什么本质不同?这些区别不是程度上的差异,而是能力维度上的跃迁。
定义

LLM与Agent的核心区别在于:LLM是被动的文字生成器,接收输入并产出文本;Agent是主动的任务执行器,接收目标并通过规划、工具调用和持续行动来完成任务。这是从"只动嘴"到"能动手"的根本转变。

分类/分型

这种区别可以从四个维度来理解:

区别一:被动应答 vs 主动执行

LLM的工作模式:

你问一句 → 它答一句 → 停下来等你下一句

它永远不会主动做任何事。你不问,它就静静待着。

Agent的工作模式:

你给目标 → 它自己规划 → 执行步骤1 → 检查结果 → 执行步骤2 → ... → 交付成果

它会主动推进任务,不需要你一步步指挥。

区别二:只能说 vs 能做事

LLM的能力边界是文字:回答问题、生成文字、分析内容、翻译转换——全部是文本层面的操作。它无法上网搜索、发送邮件、操作文件、执行代码、控制软件。

Agent在LLM的文字能力之上,加上了真正的行动能力——可以调用搜索引擎、操作文件系统、执行代码、连接外部服务。

区别三:单轮问答 vs 持续工作

LLM的思维模式是"问答":每次对话关注当前这一轮,虽然有上下文记忆,但本质上是一问一答。

Agent有一个目标,会持续工作直到目标完成。中间可能经历多个步骤,每一步都是为了最终目标。它的记忆也更持久——不仅记住当前对话,还能跨会话保留信息。

区别四:知识固定 vs 实时更新

LLM的知识在训练完成后就固定了,它只知道训练数据截止时间之前的信息。

Agent可以通过搜索工具实时获取最新信息,知识边界不再受限于训练时间。

核心原理

区别的根源在于架构层面的不同:

LLM是一个单一的语言模型——输入文本,输出文本,仅此而已。它的全部能力来自于模型参数中编码的知识。

Agent是一个系统——以LLM为核心决策引擎,但在外围接入了工具调用层、记忆管理层和任务规划层。LLM负责"想",其他组件负责"做"。

对比

一张表格总结所有关键区别:

维度LLMAgent
本质语言预测引擎自主决策系统
行为被动应答主动规划执行
能力只能输出文字可调用工具、执行操作
记忆仅当前对话长短期记忆,可跨会话
知识训练后固定实时获取更新
目标回答好当前问题完成指定任务
监督需要持续交互最少到零监督
适合问答、创作、分析自动化、执行、多步骤任务
构造案例

案例一:写一份市场分析报告

让LLM做——你说"帮我写一份中国新能源汽车市场分析报告",LLM输出一篇看起来很专业的文章。但它可能包含过时的数据,可能有编造的信息,没有真实来源,你需要自己去验证和补充。

让Agent做——同样的请求,Agent的工作流程是:

  1. 规划:确定报告需要哪些部分(市场规模、主要玩家、政策环境、技术趋势)
  2. 搜索:上网搜索最新的行业数据
  3. 读取:访问政府公开数据、行业报告
  4. 整理:把搜集的信息汇总分类
  5. 写作:基于真实数据撰写报告
  6. 检查:核实数据来源,标注引用
  7. 交付:生成带有数据来源的完整报告

区别一目了然:LLM基于训练时的知识"编写",Agent基于实时获取的信息"研究并撰写"。

案例二:处理邮件

LLM能做的:帮你写邮件草稿、润色你写好的邮件、总结一封邮件的内容。

Agent能做的:自动查看收件箱、识别重要邮件并提醒你、对常规询问自动起草回复、按照指示发送邮件、把邮件中的待办事项提取出来添加到日程。

常见误区

误区一:"Agent就是加了插件的ChatGPT"

插件只是让LLM多了一个工具,但使用插件时仍然是"你指挥,它执行"的模式。Agent的关键区别在于自主性——你给目标,它自己决定怎么做、用什么工具、按什么顺序。

误区二:"Agent能做所有事,LLM就没用了"

实际上,Agent的"大脑"就是LLM。对于纯文字任务(写作、翻译、分析),直接使用LLM更高效。Agent的优势在于需要多步骤执行和工具调用的复杂任务。选择LLM还是Agent,取决于任务是否需要"动手"。

AI工具的五级光谱

前面我们讲了LLM和Agent的区别,但现实中并不是非黑即白的"要么是LLM,要么是Agent"。实际上,今天市面上的AI工具构成了一个从"纯聊天"到"全自主"的连续光谱,可以分为五个级别。

注意:同一个产品可能包含不同级别的功能。比如ChatGPT的基础对话是第一级,但它的Deep Research功能就是第三级。所以我们按具体功能来分类,而不是按产品名称。

第一级:原始聊天Bot
项目内容
数据获取范围完全依赖用户手动输入
核心特征纯文本对话,无工具调用,问一句答一句
自动化程度手动交互
信任关系零信任,AI无任何权限
典型功能ChatGPT 基础对话(关闭工具)、Claude 纯文本对话、GPT-3.5 对话、文心一言/豆包/Gemini 基础对话

这就是我们在前三章学到的LLM的原始形态——你输入文字,它输出文字,仅此而已。

第二级:浏览器集成 / 联网增强
项目内容
数据获取范围当前网页内容 / 互联网搜索结果
核心特征AI可读取网页或联网搜索,无需用户手动粘贴
自动化程度半自动,仍是一问一答
信任关系有限信任,授予网页读取权限
典型功能ChatGPT 联网搜索、Edge Copilot 网页侧边栏、Sider/Monica 浏览器插件、沉浸式翻译

第二级的关键进步是:AI的眼界从"你告诉它的内容"扩展到了"它自己能看到的网页"。但本质上还是一问一答,不会自主行动。

第三级:云端运行Agent
项目内容
数据获取范围互联网公开数据,可自主搜索多个来源
核心特征自主规划多步骤任务,在云端独立执行,自动收集和整合数据
自动化程度高自动,给目标后自主完成
信任关系条件信任,授予外部数据访问权限
典型功能ChatGPT Deep Research、Google Gemini Deep Research、Manus 自主任务执行

从第三级开始,AI真正具备了"Agent"的特征——你给一个目标,它自己规划步骤、搜索信息、整合结果,不需要你一步步指挥。

Perplexity 的演化:Perplexity 是一个典型的跨级别演化案例。早期版本是搜索增强问答(第二级),当前版本已具备多步深度研究能力(第三级),且正在向本地集成方向发展,有向第四级演化的趋势。一个产品在不同阶段可以处于不同级别,这也说明了整个行业都在朝着更高自主性的方向演进。

第四级:桌面应用 / 本地集成
项目内容
数据获取范围本地文件系统、项目代码、应用内数据
核心特征可读取本地文件和项目上下文,与特定应用深度集成
自动化程度中高自动,辅助+部分自主
信任关系较高信任,授予本地文件读取权限
典型功能GitHub Copilot 代码补全、Cursor Tab补全 + Chat模式、Windsurf 编辑模式、Notion AI / Office Copilot

第四级的关键突破是:AI能接触到你的"私有数据"——你的代码、你的文档、你的笔记。它不再局限于互联网上的公开信息,而是能理解你的具体工作上下文。

第五级:全自主 / 系统级权限
项目内容
数据获取范围完全本地访问,可读写整个文件系统
核心特征可执行系统命令、创建/修改/删除文件,用户完全委托AI执行任务
自动化程度全自动
信任关系完全信任,授予系统级权限
典型功能Claude Code(CLI全自动编程)、Cursor Agent模式(终端+文件读写)、Aider / Trae Solo、Devin

第五级是目前AI工具的最高形态——你不只是让AI"看"你的文件,而是让它"动手改"。它可以执行命令、修改代码、创建文件,真正做到"你说目标,它交付结果"。

渐进路径总结:从第一级到第五级,四条线同步演进:

维度第一级第二级第三级第四级第五级
信息传递手动输入页面集成云端自主获取本地融合全自动执行
权限范围零权限网页权限外部数据权限本地文件权限系统级权限
自动化被动应答半自动辅助自主规划深度集成全自动执行
信任关系零信任有限信任条件信任较高信任完全信任

这个光谱帮助我们理解:LLM和Agent不是两个截然不同的东西,而是一个连续演进的过程。第一级是纯粹的LLM,第五级是完全的Agent,中间三个级别则是不同程度的过渡。当你使用任何AI工具时,都可以用这个框架来判断:它处于哪个级别?你给了它多少信任和权限?

4.3 Agent兴起的条件

Agent的概念并不新——在计算机科学领域,"智能体"的研究已有数十年历史。但为什么Agent在2024-2025年突然从学术概念变成了产业热潮?要回答这个问题,我们先要理解一个根本前提:为什么LLM在原理上能够变成Agent。
根本前提:为什么LLM能变成Agent

前面我们说LLM只能输出文字。但这里有一个关键的洞察:计算机指令和程序代码,本身也是文字。

你在电脑上做的每一件事——打开一个网页、查看今天的天气、发送一封邮件——在计算机底层,都是一条条文字形式的指令在执行。而LLM恰好是一个极其擅长生成文字的系统。如果LLM生成的文字不是一段散文,而是一条计算机指令,那会怎样?

我们用一个具体的例子来看:

例子:让AI告诉你现在几点了

如果直接问LLM"现在几点了",它做不到——因为LLM没有时钟,它只会根据训练数据编一个时间给你,这个时间大概率是错的。

但如果我们在LLM外面包一层程序,事情就不一样了:

第一步:用户问"现在几点了?"

第二步:LLM分析这个问题,发现需要获取系统时间
        → LLM输出一条计算机命令:date

第三步:外层程序检测到LLM输出了一条命令
        → 在计算机上执行这条命令
        → 得到结果:"2025年12月15日 星期一 14:32:08"

第四步:把执行结果返回给LLM

第五步:LLM用自然语言回答用户:"现在是2025年12月15日下午2点32分。"

看到了吗?LLM本身没有获得任何新能力——它依然只是在"输出文字"。但因为它输出的这段文字恰好是一条可执行的计算机命令,而外层程序把这条命令真的执行了,LLM就间接地拥有了"查看时间"的能力。

这就是Agent的核心秘密:不是LLM变强了,而是有人写了一个程序,去解析LLM的输出,把其中的指令提取出来并执行。LLM负责"想"该执行什么命令,外层程序负责"做"——真正去执行这些命令。两者配合,就从"只能说"变成了"能做事"。

同样的原理可以推广到所有操作:

  • LLM输出"搜索:2025年新能源汽车销量" → 外层程序调用搜索引擎 → 返回搜索结果
  • LLM输出"发送邮件:收件人xxx,内容xxx" → 外层程序调用邮件服务 → 邮件发出
  • LLM输出一段Python代码 → 外层程序执行这段代码 → 返回运行结果

理解了这个根本前提,我们再来看:既然原理上可行,为什么Agent直到2024-2025年才真正爆发?因为还需要几个条件同时成熟。

定义

Agent兴起的条件是指使AI Agent从理论概念走向实际可用的一组技术和市场前提。主要包括:模型能力达到临界点、工具调用技术标准化、生态协议建立、以及市场需求的爆发。

关键组件

四个条件缺一不可:

条件一:模型够强了

以前的AI模型理解能力有限,经常"听错"指令。现在的GPT-4、Claude等模型能理解复杂、模糊的指令,能进行多步推理,犯错率大大降低。模型能力是Agent的"大脑"——大脑够聪明了,才能有效指挥"手脚"。

条件二:工具调用技术成熟了

2023年,OpenAI推出了Function Calling功能,让AI可以输出结构化的"调用指令"、准确指定要调用哪个工具、传递正确的参数。这就像给AI装上了"遥控器",可以按按钮操作外部系统。

条件三:生态协议建立了

2024年,Anthropic推出了MCP协议(Model Context Protocol),相当于AI工具的"USB-C接口"——开发一次到处可用,不同AI都能用同样的工具,大大降低了开发成本。随后OpenAI、Google等巨头纷纷采纳这一标准。

条件四:市场需求爆发了

企业发现:只是"聊天"的AI,价值有限;能真正干活的AI,才能提升效率。Agent是AI从"玩具"变成"工具"的关键。

类比

如果把Agent比作自动驾驶汽车,那四个条件就像:

  • 模型能力 = 车载AI芯片够强(大脑成熟)
  • 工具调用 = 方向盘、油门、刹车的接口标准化(操控成熟)
  • 生态协议 = 交通规则和路标统一(基础设施成熟)
  • 市场需求 = 人们确实需要解放双手(需求成熟)
数据支撑

Agent市场的增长速度令人震撼:

指标2024年预测
全球AI Agent市场51-53亿美元471亿美元(2030年)
年复合增长率40-45%
通用AI Agent526亿美元(2030年)

来源:Markets and Markets / 36氪AI Agent报告

区域市场对比(2025年)

地区市场规模特点
美国约1500亿美元消费级主导
欧洲约1000亿美元企业级主导
中国约800亿美元增速25-30%

行业预测

预测机构预测内容时间节点
Gartner15%日常决策由Agent自主完成2028年
Gartner33%企业软件包含Agent功能2028年
德勤50%使用生成式AI的企业将部署Agent2027年
IDC50%中国500强使用AI Agent2026年
真实案例

2025年:"Agent元年"的标志性事件

  1. Manus发布(2025年3月):中国团队Monica.im推出全球首款通用型AI Agent,在GAIA基准测试中取得86.5%的成绩,超越OpenAI的Deep Research(70.1%),获得Benchmark领投的7500万美元融资
  2. MCP协议被广泛采纳:Anthropic发布的MCP协议成为事实上的行业标准,OpenAI、Google等巨头相继支持
  3. Deep Research上线:展示了Agent在科研级信息搜索领域的能力——信息有出处、能跳转、能复核
  4. 产品密集发布:字节扣子、百度千帆、蚂蚁等平台密集推出Agent产品

来源:53AI Manus报道

4.4 Agent的应用场景

了解了Agent是什么和为什么兴起之后,一个自然的问题是:它到底能用在哪里?答案是——几乎所有需要"多步骤执行"的任务。
定义

Agent的应用场景是指那些需要AI不仅"给建议"还要"动手做"的任务领域。其核心特征是:任务包含多个步骤、需要调用外部工具或系统、需要持续推进直到完成。

分类/分型

Agent的应用可以分为三大类:

个人生活应用

  • 智能购物助手:在多个平台比价,找到最优惠选项,帮你下单
  • 旅行规划:自动查机票酒店,规划行程,预订餐厅和景点门票
  • 学习助手:根据目标制定计划,搜索资料,追踪进度,针对薄弱点调整
  • 健康管理:记录饮食运动,分析数据,提醒吃药体检

职场应用

  • 会议助手:自动记录内容,提取待办,发送纪要,安排后续会议
  • 邮件管理:筛选重要邮件,自动起草回复,追踪跟进事项
  • 数据分析:从多个系统收集数据,生成报告,发现异常并预警
  • 客户服务:24小时自动回复,处理退换货,升级复杂问题给人工

行业应用

行业Agent能做什么渗透率(2025年)
金融自动化交易、风险监控、智能投顾>30%
电商智能客服、个性化推荐、库存管理>30%
医疗预诊分诊、病历整理、用药提醒~20%
制造设备监控、故障预测、生产调度<20%
教育个性化教学、自动批改、学情分析~15%
适用场景

什么任务适合Agent,什么任务LLM就够了?判断标准很简单:

  • 只需要信息和建议 → 用LLM:写作、翻译、分析、问答
  • 需要多步骤执行 → 用Agent:调研、采购、流程管理
  • 需要调用外部系统 → 用Agent:发邮件、查数据、操作文件
  • 需要持续跟踪 → 用Agent:项目管理、进度追踪、异常监控
真实案例

麦肯锡咨询公司的Agent实践

项目详情
场景项目受理流程自动化
优化前分配一个项目需要20天
优化后只需要2天
效率提升90%(10倍)

Agent完成的工作包括:自动读取项目需求、匹配合适的咨询师、协调各方时间、准备项目材料、通知相关人员。这些以前需要人工一个个确认、协调的工作,现在由Agent自动完成。

其他行业案例

行业应用效果
零售AWS/阿里智能供应链区域化精准补货
医疗推想医疗辅助诊断降低基层误诊率
工业西门子/施耐德缺陷检测缺陷识别准确率99%+

麦肯锡调研数据(使用Agent的企业反馈):

效果占比
感觉更有创新力64%
盈利能力提高36%
收入增长33%
市场份额提升25%

来源:麦肯锡2025 AI报告

4.5 Agent的组成公式

前面我们反复提到Agent比LLM多了"工具"、"记忆"、"规划"等能力。那么Agent到底是由什么组成的?这里给出一个简洁的框架。
定义

Agent的组成公式是:Agent = LLM(大脑)+ 记忆(Memory)+ 工具(Tools)+ 规划(Planning)。这四个组件共同构成了一个能够自主完成任务的AI系统。

关键组件
组件作用类比
LLM(大脑)思考、理解、决策的核心引擎人的大脑
记忆(Memory)记住上下文、历史信息、用户偏好人的记忆力
工具(Tools)搜索、读写文件、调用API、执行代码人的手和脚
规划(Planning)把大任务拆成小步骤,有序执行人的计划表
没有它会怎样

为什么LLM本身不够?逐个来看:

能力只有LLM加上其他组件
记住上周说的话做不到长期记忆
查最新的信息做不到搜索工具
发一封邮件做不到邮件工具
执行代码验证做不到代码执行器
操作你的电脑做不到系统权限

每一项"做不到",都是因为缺少了某个组件。Agent把这些组件组合起来,让LLM从一个"只能说"的大脑,变成一个"能做事"的完整系统。

与其他概念的关系

吴恩达(Andrew Ng)提出了Agent的四大核心设计模式,为这个公式提供了更具体的实现框架:

设计模式描述对应组件
自我反思(Reflection)自我修正,发现错误并改正规划 + LLM
使用工具(Tool Use)链接外部系统,执行操作工具
规划(Planning)分解复杂任务,找到执行路径规划
协作(Multi-agent)多Agent组队,分工合作多Agent架构

来源:吴恩达AI Agent设计模式

可视化
┌─────────────────────────────────┐
│           AI Agent              │
│                                 │
│   ┌───────────────────────┐     │
│   │    LLM(大脑)         │     │
│   │  理解 → 决策 → 输出    │     │
│   └───────────┬───────────┘     │
│               │                 │
│   ┌───────────┼───────────┐     │
│   │           │           │     │
│   ▼           ▼           ▼     │
│ ┌─────┐  ┌─────┐  ┌──────┐    │
│ │记忆  │  │工具  │  │ 规划 │    │
│ │短期  │  │搜索  │  │ 分解 │    │
│ │长期  │  │文件  │  │ 排序 │    │
│ │偏好  │  │API   │  │ 执行 │    │
│ └─────┘  └─────┘  └──────┘    │
│                                 │
└─────────────────────────────────┘

本章小结

知识点一句话总结
AI Agent能自主感知、决策、行动的AI系统,以LLM为大脑,加上工具、记忆和规划能力
LLM与Agent的核心区别LLM是被动的文字生成器,Agent是主动的任务执行器——从"只动嘴"到"能动手"
Agent兴起的条件模型够强、工具调用成熟、生态协议建立、市场需求爆发,四个条件同时到位
Agent的应用场景个人生活、职场、各行业中需要多步骤执行和工具调用的任务
Agent的组成公式Agent = LLM(大脑)+ 记忆 + 工具 + 规划,四个组件缺一不可

本章的核心认知:LLM是超级聪明的顾问,能给你最好的建议;Agent是能干的助理,能帮你把事情做完。从"我来告诉你怎么做"到"我来帮你做"——这就是AI能力的一次关键进化。理解了这个区别,你就明白了为什么整个行业都在从"对话AI"走向"行动AI"。

练习

思考题1

回顾你日常工作中的任务,列出3个"只需要建议"的任务(LLM能搞定)和3个"需要多步骤执行"的任务(需要Agent)。思考它们的区别在哪里。

思考题2

如果你有一个完美的AI Agent助理,你最希望它帮你完成什么任务?这个任务需要调用哪些工具?涉及几个步骤?

实践练习

如果你使用过带有联网或插件功能的AI工具(如ChatGPT的浏览功能、Perplexity等),回忆一下:当AI可以"做事"(搜索、执行)而不只是"说话"时,你的体验有什么不同?用本章学到的"LLM vs Agent"框架来分析这种体验差异。

参考资料