本章包含6个知识点,围绕"当前AI工具生态中有什么"展开:
回顾一下五个信任层级,以及每个层级对应的工具类型:
| 信任层级 | 含义 | 代表工具类型 | 代表产品 |
|---|---|---|---|
| L1 信息查询 | AI回答问题,你自己判断和执行 | 对话型AI | ChatGPT、Claude.ai、Gemini |
| L2 内容生成 | AI生成内容,你审核后使用 | 对话型AI + 写作工具 | Claude、ChatGPT、Kimi |
| L3 半自动执行 | AI执行操作,每步需你确认 | AI编程助手 | Cursor、GitHub Copilot、Windsurf |
| L4 监督执行 | AI自主完成多步任务,你监督结果 | AI编程Agent | Claude Code、Devin、Aider |
| L5 完全自主 | AI独立完成整个目标,无需干预 | 尚无成熟产品 | 尚在探索中 |
从这张表可以看出一个清晰的趋势:层级越高,AI的自主程度越大,人类的参与越少。 从L1的"你问它答",到L4的"它做你看",工具形态发生了根本性的变化。
把这五个层级画成一张谱系图,市面上的所有AI工具都能找到自己的位置:
L1 信息查询 ← ChatGPT | Claude.ai | Gemini | DeepSeek | Kimi | 豆包
"我来问,AI来答"
L2 内容生成 ← ChatGPT | Claude | Kimi | 通义千问
"AI来写,我来审"
L3 半自动执行 ← Cursor | GitHub Copilot | Windsurf
"AI来改,我来确认"
零代码平台: v0 | Bolt | Lovable | Replit Agent
L4 监督执行 ← Claude Code | Devin | Aider | Cline | OpenHands | OpenClaw
"AI来做,我来监督"
L5 完全自主 ← 暂无成熟产品
"AI全包,我不管"
AI工具迭代极快,每个月都有新产品发布。如果你记住的是具体的产品名称,很快就会过时。但如果你理解了这个分类框架,不管未来出现什么新工具,你都能快速判断它属于哪个层级、适合什么场景、有什么局限——这比记住任何一个具体工具都更有价值。
需要特别指出的是:很多工具并不只属于一个层级。 比如ChatGPT在普通聊天时是L1,在生成长文时是L2;Cursor在代码补全时是L3,在使用Composer功能时接近L4。工具本身是灵活的,层级取决于你怎么使用它。
接下来的几节,我们按照从L1到L5的顺序,逐一盘点每个层级中的代表性工具。
ChatGPT是OpenAI在2022年11月推出的产品,也是让全世界第一次认识到"AI能这么强"的产品。它的生态最为完善:
Claude是Anthropic公司的产品,也是本课程重点介绍的AI。它的特点:
Gemini是Google推出的AI助手,最大的优势在于与Google生态的深度集成:
中国的AI大模型发展同样迅速,以下几个产品各有特色:
| 产品 | 出品方 | 特点 | 最适合场景 |
|---|---|---|---|
| DeepSeek | 深度求索 | 开源标杆,性能接近GPT-4,价格极低 | 开发者使用、API调用、性价比场景 |
| Kimi | 月之暗面 | 超长上下文(支持200万字),擅长长文 | 长文档阅读、论文分析、资料整理 |
| 通义千问 | 阿里巴巴 | 阿里生态集成,模型开源 | 企业场景、阿里云集成、开源二次开发 |
| 豆包 | 字节跳动 | 面向大众用户,交互友好 | 日常聊天、内容创作、生活助手 |
| 文心一言 | 百度 | 中文优化,搜索集成 | 中文写作、百度生态内的AI辅助 |
所有对话型AI都有几个共同的局限,了解这些局限比记住每个产品的功能更重要:
这些局限也正是更高层级工具存在的原因——当你需要AI不仅"告诉你怎么做",还要"帮你做出来"的时候,就需要编程助手和Agent类工具了。
Cursor是2023年以来最受关注的AI编程工具之一。它基于VS Code开发,保留了VS Code的全部功能,同时深度集成了AI能力:
Cursor的最大优势在于所见即所得——你在编辑器里直接看到AI的修改,通过Diff视图逐行确认,觉得不对可以直接撤销。这种交互模式对初学者特别友好。
GitHub Copilot是由GitHub(微软)推出的AI编程助手,在企业市场占有率最高:
Copilot的优势在于生态覆盖广——不管你用什么编辑器、什么语言,Copilot都能支持。对于已经在使用GitHub的团队来说,Copilot是最自然的选择。
Windsurf(原Codeium升级版)是AI编程助手领域的新兴竞品:
| 维度 | Cursor | GitHub Copilot | Windsurf |
|---|---|---|---|
| 基础 | 基于VS Code的独立编辑器 | IDE插件 | 基于VS Code的独立编辑器 |
| 操作方式 | Cmd+K快速编辑,Composer多文件 | 行内补全,Chat对话 | Cascade自动协作 |
| 代码理解 | 项目级上下文 | 当前文件+邻近文件 | 项目级上下文 |
| 自主程度 | L3,Composer接近L4 | L3 | L3-L4 |
| IDE支持 | 仅自身编辑器 | 几乎所有主流IDE | 仅自身编辑器 |
| 价格 | ~$20/月 | $10-19/月 | ~$15/月 |
| 适合人群 | 喜欢所见即所得的开发者 | 已使用GitHub的团队 | 偏好AI主动协作的开发者 |
学完第11-12课,你已经深入了解了Claude Code。在这张AI编程工具的版图中,Claude Code处于什么位置?
Claude Code是L4级别的工具,而上面介绍的编程助手主要是L3级别。 核心差别在于:
它们不是竞争关系,而是互补关系。在实际工作中,很多开发者会同时使用Cursor和Claude Code——简单修改用Cursor的Cmd+K,复杂任务用Claude Code的自主规划能力。第14课将详细讲解如何根据场景选择合适的工具。
v0是Vercel公司出品的AI前端开发工具:
Bolt.new是StackBlitz推出的AI全栈开发工具:
Lovable(原GPT Engineer)专注于快速原型开发:
Replit是老牌在线编程平台,Agent是其AI驱动的开发功能:
优势:
局限性:
| 用户类型 | 适合程度 | 原因 |
|---|---|---|
| 产品经理 | 非常适合 | 快速做出原型,和团队、客户沟通想法 |
| 创业者 | 非常适合 | 验证商业想法,不需要先雇开发团队 |
| 设计师 | 适合 | 把设计稿变成可交互的原型 |
| 学生 | 适合 | 学习编程概念,快速做出课程项目 |
| 专业开发者 | 部分适合 | 快速验证想法,但正式项目仍需专业工具 |
简单来说:零代码平台擅长从0到0.5,但从0.5到1(上线可用的产品)仍然需要专业开发工具和能力。
Devin是Cognition Labs在2024年3月发布的产品,是第一个引发广泛关注的"AI软件工程师"概念:
Devin的意义在于它第一次展示了AI编程Agent的可能性——AI不仅能辅助你编程,还能"独立上班"。但它的价格和33%的合并率也说明了当前的AI Agent远非完美。
Aider是一个开源的命令行AI编程工具:
Cline是一个运行在VS Code中的开源AI编程Agent:
OpenHands是一个开源的AI软件开发Agent平台:
OpenClaw是2025-2026年最受关注的开源AI Agent项目,在GitHub上拥有超过145,000颗星。但很多人不知道的是:它的成功,本质上是Claude的成功。
改名三部曲:从名字就能看出血统
这个项目最初的名字叫Clawdbot——对,就是"Claude"的谐音+"bot"。它由奥地利开发者Peter Steinberger在2025年11月发布,从一开始就是围绕Claude模型构建的。后来因为Anthropic提出商标侵权,两天内被迫改名两次:Clawdbot → Moltbot(2026年1月27日)→ OpenClaw(2026年1月29日)。名字变了三次,但底层引擎从未改变。
为什么OpenClaw能成功?因为Claude的Agent能力
OpenClaw本质上是一个围绕大模型API构建的开源"外壳"。它做的事情是:把大模型的Agent能力(工具调用、文件操作、命令执行)通过WhatsApp、Telegram、Slack、Discord等聊天平台暴露给用户。
那么问题来了:这种"外壳"谁都能做,为什么OpenClaw火了?关键在于底层模型的工具调用可靠性。OpenClaw虽然现在支持多种模型(Claude、GPT、DeepSeek、Kimi等),但社区公认Claude的工具调用(tool use)是最稳定可靠的——这正是我们在第8课学过的MCP和工具调用机制。
换个说法:OpenClaw是"车身",Claude是"发动机"。 车身可以换壳、喷漆、加装配件,但让车真正跑起来的是发动机的性能。OpenClaw的成功证明了Claude在Agent场景下的底层能力,同时也说明了一个道理——理解底层模型的能力,比追逐具体工具的热度更有价值。
核心功能:
安全提醒:
| 项目 | 特点 | 适合场景 |
|---|---|---|
| SWE-Agent | Princeton大学研究项目,学术标杆 | 学术研究、了解Agent前沿 |
| Continue | 开源AI编程助手,社区活跃(GitHub 2万+ Star) | 想要开源Copilot替代品的开发者 |
| Amazon Q Developer | 亚马逊出品,深度集成AWS | AWS用户、企业级开发 |
| Codex CLI | OpenAI出品的命令行编程工具 | OpenAI生态用户 |
Claude Code与上述工具处于同一赛道——都是L4级别的AI编程Agent。它们的核心差异在于:
| 维度 | Claude Code | Devin | Aider | Cline | OpenClaw |
|---|---|---|---|---|---|
| 运行环境 | 你的终端 | 独立云端环境 | 你的终端 | VS Code | 你的操作系统 |
| 交互方式 | 终端对话 | Slack/Web界面 | 终端对话 | 编辑器内面板 | 聊天平台(WhatsApp等) |
| 底层模型 | Claude(固定) | 自研 | 可选多种模型 | 可选多种模型 | 可选多种模型 |
| 开源 | 否(有开源SDK) | 否 | 是 | 是 | 是 |
| 价格 | API按量计费 | ~$500/月 | 免费(需付API费) | 免费(需付API费) | 免费(需付API费) |
| 最佳场景 | 复杂项目的自主开发 | 团队中的"AI同事" | 轻量终端AI编程 | VS Code中的AI开发 | 通用任务自动化 |
选哪个?这取决于你的工作环境、预算和偏好。如果你已经熟悉了Claude Code,它的Plan Mode、MCP、Hooks等进阶功能在同类工具中是最成熟的。如果你想要开源方案和模型灵活性,Aider和Cline是很好的选择。
盘点完这些Agent工具后,有一个重要事实必须指出:截至目前,没有任何AI编程Agent达到了真正的L5(完全自主)水平。
即使是最好的Agent,在面对复杂任务时仍然需要人类参与。原因在于一个数学现象——误差累积效应:
假设AI每一步的正确率为95%: 5步任务的成功率:77% 10步任务的成功率:60% 20步任务的成功率:36% 50步任务的成功率:7.7%
即使每一步的准确率高达95%,经过50步之后,整体成功率也会降到不足8%。这就是为什么AI Agent在简单任务上表现很好,但在需要数十步甚至上百步的复杂任务上经常失败——不是某一步不够聪明,而是步骤一多,错误就不可避免地累积。
这也是为什么当前最好的实践是L4(监督执行)而非L5(完全自主)——人类在关键节点的监督和纠偏,是目前克服误差累积的最有效方式。
Agent框架是一类开发库或平台,它们提供构建AI Agent所需的基础组件——任务编排、工具调用、记忆管理、多Agent协作等。你可以用这些框架快速搭建出符合自己业务需求的AI工作流。
类比:如果前面介绍的AI工具是"成品家具"(买来就能用),Agent框架就是"木工车间的工具套装"(需要你自己动手,但可以造出完全定制的家具)。
CrewAI的核心理念是"AI团队协作"——你可以定义多个AI角色(如研究员、写手、审核员),让它们各司其职、协作完成任务:
LangGraph是LangChain团队推出的Agent工作流框架:
AutoGen是微软研究院推出的多Agent对话框架:
除了第三方框架,AI大厂也纷纷推出了自己的Agent SDK:
| SDK | 出品方 | 特点 |
|---|---|---|
| Anthropic Agent SDK | Anthropic(Claude) | 围绕Claude模型构建Agent,支持工具调用和多Agent |
| OpenAI Agents SDK | OpenAI(GPT) | OpenAI生态的Agent构建工具,支持Responses API |
| Google ADK | Google(Gemini) | Agent Development Kit,集成Google Cloud |
Agent框架不是所有人都需要了解的——它们面向的是有编程能力、想构建自定义AI工作流的开发者。
| 你的情况 | 建议 |
|---|---|
| 不会编程 | 不需要了解框架,用好现成工具即可 |
| 会编程,日常使用AI工具 | 了解概念即可,知道"有这些东西"就行 |
| 会编程,想构建AI工作流 | 选一个框架深入学习(推荐从CrewAI或LangGraph开始) |
| 团队技术负责人 | 评估各框架,选择适合团队的方案 |
目前Agent框架生态还在快速演变中。一个值得关注的趋势是:框架在变得更简单、更标准化。 最早的Agent框架需要大量代码来处理底层细节(提示词构建、上下文管理、工具调用协议等),现在越来越多的框架把这些封装好了,开发者只需要关注业务逻辑。
另一个趋势是MCP协议的普及(我们在第12课学过)。随着越来越多的工具和服务支持MCP,Agent框架的"工具调用"能力会越来越强——你的自定义Agent将能连接到数以千计的外部服务。
| 工具类别 | 信任层级 | 代表产品 | 适合人群 |
|---|---|---|---|
| 对话型AI | L1-L2 | ChatGPT、Claude、Gemini、DeepSeek、Kimi | 所有人 |
| AI编程助手 | L3 | Cursor、GitHub Copilot、Windsurf | 程序员、学编程的人 |
| 零代码AI平台 | L3 | v0、Bolt.new、Lovable、Replit Agent | 产品经理、创业者、设计师 |
| AI编程Agent | L4 | Claude Code、Devin、Aider、Cline | 有编程基础的开发者 |
| Agent框架 | 开发者工具 | CrewAI、LangGraph、AutoGen | 构建AI工作流的开发者 |
核心认知一:掌握分类框架比记住具体工具更重要。AI工具迭代极快,但L1-L5的分类框架是稳定的。看到任何新工具,先判断它属于哪个层级。
核心认知二:当前最好的AI编程工具是L4水平(监督执行),真正的L5(完全自主)尚不存在。人类的监督和纠偏在当前阶段仍然不可或缺。
核心认知三:不同层级的工具不是替代关系,而是互补关系。日常问答用对话型AI,编码用编程助手或Agent,快速原型用零代码平台——对的工具用在对的场景。
衔接下一课:知道了市面上有什么AI工具之后,一个自然的问题是——面对这么多选择,我该怎么挑?下一课将介绍一个实用的"三问决策法",帮你在具体场景中快速选出最合适的工具。
以下工具分别属于L1-L5中的哪个层级?说明你的理由。
本课的内容基于当前(2025年)的工具版图。你觉得一年后,这个版图最可能发生什么变化?
提示:从以下角度思考——
选择3个你当前最常用(或最想尝试)的AI工具,为每个工具建一个简短的"档案卡":
工具名称:_______________ 信任层级:L__ 核心能力:(一句话描述) 最适合的场景:_______________ 我使用它的频率:_______________ 它最大的局限是:_______________