如果我问你"你用过大模型吗?",很多人会说用过ChatGPT、豆包。但你手机上的App和"大模型"可能根本不是一回事。本章先搞清楚这个概念,再看大模型的真正能力和局限。
| 时间 | 模型 | 关键节点 |
|---|---|---|
| 2019 | GPT-2 | 能写出连贯段落,但经常跑题、逻辑混乱 |
| 2020 | GPT-3 | 参数量达到175B,少样本学习能力涌现 |
| 2022 | GPT-3.5 | ChatGPT发布,AI进入大众视野 |
| 2023 | GPT-4 | 多模态能力,律师考试超过90%考生 |
| 2024 | GPT-4o / Claude 3.5 | 速度与能力兼顾,竞争加剧 |
| 2025 | GPT-4.5 / GPT-5 | 推理能力再次跃升 |
| 2024-2025 | Qwen / DeepSeek / ERNIE | 国产大模型迅速追赶,部分能力接近前沿 |
注意——GPT-2、GPT-3、GPT-4、Claude 3.5、Qwen、DeepSeek——它们才是"大模型"。那你手机上装的那些App呢?
大模型世界有三个层级:大模型(LLM)是AI的底层引擎;基于大模型的应用是包装成产品的整车;Agent不仅有引擎和车身,还能自主完成任务。
| 层级 | 是什么 | 类比 | 举例 |
|---|---|---|---|
| 大模型(LLM) | 底层AI引擎,只接受文字输入、输出文字 | 裸露的发动机 | GPT-4、Claude 3.5 Sonnet、Qwen-72B、DeepSeek-R1 |
| 应用 | 基于大模型包装的产品,加了界面、记忆、搜索等功能 | 组装好的整车 | ChatGPT App、豆包、Kimi、通义千问 App |
| Agent | 能自主规划、使用工具、完成复杂任务的AI系统 | 自动驾驶汽车 | Claude Code、Cursor、Manus |
发动机 / 整车 / 自动驾驶
请试着把下面10个名字分为三类:大模型、应用、还是Agent?
| 序号 | 名称 | 你的分类 |
|---|---|---|
| 1 | GPT-4 | |
| 2 | ChatGPT(App) | |
| 3 | 豆包 | |
| 4 | 通义千问(App) | |
| 5 | Qwen-72B | |
| 6 | Claude 3.5 Sonnet | |
| 7 | DeepSeek-R1 | |
| 8 | Kimi | |
| 9 | Claude Code | |
| 10 | Cursor |
| 名称 | 分类 | 为什么 |
|---|---|---|
| GPT-4 | 大模型 | OpenAI的底层语言模型,是引擎本身 |
| ChatGPT(App) | 应用 | 基于GPT系列模型的产品,加了对话界面、记忆、搜索等功能 |
| 豆包 | 应用 | 字节跳动基于豆包大模型包装的产品 |
| 通义千问(App) | 应用 | 阿里基于Qwen模型包装的产品 |
| Qwen-72B | 大模型 | 阿里的底层语言模型,72B是参数量 |
| Claude 3.5 Sonnet | 大模型 | Anthropic的底层语言模型 |
| DeepSeek-R1 | 大模型 | DeepSeek的底层推理模型 |
| Kimi | 应用 | 月之暗面基于自研模型包装的产品 |
| Claude Code | Agent | 能自主读写文件、执行命令、完成编程任务 |
| Cursor | Agent | 能自主理解代码库、规划修改、执行编辑 |
你发现了吗?你日常接触到的,几乎全是应用——不是大模型本身。
容易混淆的名字
| 大模型的"原始问题" | 应用怎么帮你解决的 | 你的感受 |
|---|---|---|
| 上下文窗口有限,聊久了会"忘" | 自动摘要、压缩历史对话 | 感觉AI一直记得 |
| 知识有截止日期,不知道最新信息 | 接入搜索引擎,实时检索 | 感觉AI什么都知道 |
| 只能处理文字,看不了图片和文件 | 加了OCR、文件解析等模块 | 感觉AI能读文件 |
| Temperature参数影响输出随机性 | 预设合理参数,用户无需关心 | 感觉回答稳定可靠 |
| 容易产生幻觉,编造不存在的内容 | RAG检索增强、事实核查模块 | 感觉准确度提高了 |
| 不能联网、不能执行代码 | 加了插件、代码解释器 | 感觉AI什么都能做 |
井水与瓶装水
大模型 = 井里的水——原始的、可能有杂质、但你能看到真实的样子。
应用 = 瓶装水——经过过滤、消毒、包装,方便又安全,但你已经感受不到原始井水的样子了。
接下来讨论的"能力"和"局限",说的是那口井里的水——大模型引擎本身。应用能补救一部分,但底层的某些问题应用解决不了。
涌现能力是指小模型没有,但大模型突然就有了的能力。关键词是"突然"——不是慢慢变强,而是到了某个临界点,能力跳跃式提升。
蚁群找最短路径
没有一只蚂蚁"知道"最短路径,但群体涌现出了这个能力。
学开车
刚开始学的时候,打方向盘、踩油门刹车、看后视镜,你分别都会了,但就是不会开车。然后突然有一天,你练到某个临界点,一切"串起来"了——你会开车了!这种从"各个技能都有"到"整体技能突然成立"的跳跃,就是涌现。
GPT-2(2019年)连完整文章都难写好,但GPT-4(2023年)已经能:
这不是"慢慢变好",而是跨过临界点后的跳跃。
你可能听过的一个词:Scaling Law
如果你关注AI新闻,可能经常看到"Scaling Law"这个词。它和涌现能力密切相关,但说的不是同一件事:
两者的关系是:Scaling Law 是"大力",涌现是"奇迹"。正因为模型不断变大(Scaling Law),才在某些节点上涌现出了意想不到的新能力。所以当你在新闻里看到"Scaling Law"时,可以理解为:AI领域发现了一条规律——把模型做大,就能持续变强,而且变强的过程中还会蹦出惊喜。
"涌现是不是假象?"
2023年NeurIPS最佳论文《Are Emergent Abilities of Large Language Models a Mirage?》质疑:涌现可能是度量幻觉——不是能力"突然出现",而是非线性的评测指标造成了这种假象。
但无论学术争论的结论如何,大模型确实比小模型强得多——任何用过GPT-2和GPT-4的人都能感受到这种巨大差距。
AI幻觉是指AI生成的内容看起来合理且自信,但实际上是错误的或完全编造的。不是AI"故意骗你",而是它的概率预测机制天然会产生这种问题。
案例一:律师被罚款(2023年)
纽约一位律师用ChatGPT帮忙起草法律文书。文书中引用了6个"先例案件"来支持论点。问题是:这6个案件根本不存在——案件名称、案卷号、法官意见全是ChatGPT编造的,而且格式完美、逻辑自洽。法官发现后,律师事务所被罚款5000美元。
来源:中新网报道
案例二:市长被"定罪"
澳大利亚一位市长发现ChatGPT声称他曾因贿赂罪被定罪入狱。事实是他从未有任何犯罪记录,一切完全虚构。
案例三:编造学术引用
一位科学家故意用一个不存在的学术术语测试ChatGPT。AI不仅给出了听起来很专业的解释,还"引用"了多篇"权威论文"——这些论文全部是编造的。
| 原因 | 说明 |
|---|---|
| 概率机制 | AI选择的是"最可能"的下一个词,不是"正确"的词。"听起来对"和"真的对"是两回事 |
| 训练数据局限 | 训练数据可能含错误信息;有些正确信息AI未必学到;知识有截止日期 |
| 没有自知之明 | AI不知道自己不知道什么,无法区分"确定的事实"和"不确定的猜测",回答时总是很自信 |
| 模式匹配 | AI学会的是语言的"模式",不是真正的"理解"。它会生成符合模式的内容,但模式不等于事实 |
"Hallucination is Inevitable: An Innate Limitation of Large Language Models"(幻觉是不可避免的:大语言模型的固有局限性)
该论文从理论上证明:对于任何可计算的大语言模型,幻觉在数学上不可能完全消除。
回忆3.2节:应用层通过搜索引擎、RAG等手段缓解幻觉,但"缓解"≠"消除"。底层的概率生成机制决定了幻觉是这类AI的内在特性。
| 场景 | 幻觉风险 |
|---|---|
| 创意写作、头脑风暴 | 低——"编造"在这里反而是优点 |
| 解释常见概念、大众知识 | 低——训练数据中覆盖充分 |
| 具体数字、日期、统计数据 | 中——需要交叉验证 |
| 学术引用、论文出处 | 高——AI特别喜欢编造论文 |
| 法律条文、医疗建议 | 极高——错误可能造成严重后果 |
| 局限 | 说明 | 应用能补救吗? |
|---|---|---|
| 知识截止日期 | 训练数据有时间截止点,之后的事情完全不知道 | 可以——接入搜索引擎 |
| 上下文长度限制 | 一次对话能处理的文本量有限,聊久了会"忘" | 部分——自动摘要,但会丢信息 |
| 数学计算不可靠 | 本质是"预测下一个字",不是真正计算 | 可以——接入代码解释器 |
| 长链推理易出错 | 推理步骤多时错误逐步累积 | 部分——分步验证技巧缓解 |
| 缺乏真正理解 | 没有常识推理和物理世界体验 | 很难——这是根本性局限 |
| 无法访问外部世界 | 不能搜索、发邮件、读文件、执行代码 | 可以——加插件和工具 |
关于上下文限制
应用帮你"隐藏"了上下文限制,但隐藏不等于解决。为什么不能把30MB的文件丢给AI?为什么聊久了AI好像忘了开头说的话?因为应用的压缩和摘要机制必然会丢失信息——它只是让你"感觉不到"这个限制,而不是真正消除了它。
注意上面表格中"无法访问外部世界"这一行。
大模型只能生成文字,不能搜索网页、不能发邮件、不能读写文件、不能执行代码。应用的解法是给大模型加插件和工具。
但如果更进一步——让AI自主决定用什么工具、自己规划执行步骤、自己完成整个任务呢?
这就引出了关键概念:Agent。
还记得分类练习中的Claude Code和Cursor吗?它们就是Agent——不只是给你建议,而是真的帮你干活。Agent不仅有"引擎"(大模型)和"车身"(应用界面),还有"自动驾驶系统"——能自主规划路线并到达目的地。
黄金法则——AI是非常强大的助手,但不是全知全能的权威。核心原则是"信任但要核实"(Trust but Verify)。
可以信任AI做的事(低风险)
必须核实AI输出的场景(高风险)
技巧一:要求提供来源
请回答这个问题,并说明你的信息来源。如果不确定,请明确告诉我。
技巧二:让AI承认不确定性
如果你不知道答案或不确定,请直接说"我不确定",不要编造。
技巧三:分步骤验证
把复杂问题拆成小问题,逐步验证每一步的输出是否合理。
技巧四:交叉验证
重要信息用搜索引擎确认,专业问题咨询专业人士。不要把AI的输出当作唯一信息来源。
把AI当成一个博学但偶尔犯错的同事。他读过很多书,见识广博,你可以和他讨论想法、让他帮你起草方案。但涉及重要的数据和事实,你还是会自己核实一遍——因为你知道他有时候会记错。
AI是需要你审核的实习生,而不是可以完全信赖的权威。
| 知识点 | 一句话总结 |
|---|---|
| 什么是大模型 | 大模型(LLM)是底层AI引擎,你手机上的ChatGPT/豆包是应用,Agent能自主完成任务 |
| 应用藏了什么 | 应用帮你隐藏了上下文限制、温度参数等原始问题,大模型=井水,应用=瓶装水 |
| 涌现能力 | 模型规模达到临界点后能力跳跃式提升,从GPT-2写不好文章到GPT-4听懂复杂指令 |
| 核心局限 | AI会编造看似合理但错误的内容(幻觉),且无法访问外部世界——这催生了Agent |
| 正确使用策略 | 充分利用AI的创意和辅助能力,但对事实、数据、专业建议必须人工核实 |
本章的核心认知:你手机上用的不是大模型,而是精心包装过的应用。了解大模型的真实能力和局限,是理解整个AI世界的基础。从"无法访问外部世界"这个局限出发,你就能理解为什么我们需要Agent。
产品分类练习
打开手机上所有AI相关的App,想想它们各自用的是哪个底层大模型?在大模型之上加了哪些功能?
感受"应用层"的存在
在ChatGPT或豆包中问最近的新闻。如果它能回答,思考:这是大模型"知道"的,还是应用帮它"搜"的?
回顾分类练习——Claude Code和Cursor被归为"Agent",而ChatGPT和豆包被归为"应用"。它们之间的根本区别是什么?为什么说Agent不只是"加了插件的应用"?
提示:思考"自主行动"这个关键词。答案将在下节课揭晓。