Chapter 03

认识大模型——从日常产品到能力边界

核心问题　什么是大模型？什么是应用？大模型真正的能力边界在哪里？ 阅读收获　区分大模型与应用产品，理解涌现能力和幻觉问题，建立合理使用期望

本章概览

如果我问你"你用过大模型吗？"，很多人会说用过ChatGPT、豆包。但你手机上的App和"大模型"可能根本不是一回事。本章先搞清楚这个概念，再看大模型的真正能力和局限。

3.1 什么是大模型？（大模型 vs 应用 vs Agent） │ ├──→ 3.2 应用帮你"藏"起了什么？（井水与瓶装水） │ ├──→ 3.3 涌现能力（大力出奇迹） │ ├──→ 3.4 核心局限（幻觉 + 其他局限 → 引出Agent） │ └──→ 3.5 正确使用AI的策略（信任但要核实）

阅读建议：3.1节"什么是大模型"是本章的概念基础；3.4节"核心局限"是重点，尤其是幻觉问题和向Agent的过渡。

3.1 什么是大模型？你用的到底是什么？

这是理解整个AI世界的起点。你手机上装的ChatGPT、豆包、千问，和我们说的"大模型"，是完全不同的东西。

时间线

时间	模型	关键节点
2019	GPT-2	能写出连贯段落，但经常跑题、逻辑混乱
2020	GPT-3	参数量达到175B，少样本学习能力涌现
2022	GPT-3.5	ChatGPT发布，AI进入大众视野
2023	GPT-4	多模态能力，律师考试超过90%考生
2024	GPT-4o / Claude 3.5	速度与能力兼顾，竞争加剧
2025	GPT-4.5 / GPT-5	推理能力再次跃升
2024-2025	Qwen / DeepSeek / ERNIE	国产大模型迅速追赶，部分能力接近前沿

注意——GPT-2、GPT-3、GPT-4、Claude 3.5、Qwen、DeepSeek——它们才是"大模型"。那你手机上装的那些App呢？

定义

大模型世界有三个层级：大模型（LLM）是AI的底层引擎；基于大模型的应用是包装成产品的整车；Agent不仅有引擎和车身，还能自主完成任务。

层级	是什么	类比	举例
大模型（LLM）	底层AI引擎，只接受文字输入、输出文字	裸露的发动机	GPT-4、Claude 3.5 Sonnet、Qwen-72B、DeepSeek-R1
应用	基于大模型包装的产品，加了界面、记忆、搜索等功能	组装好的整车	ChatGPT App、豆包、Kimi、通义千问 App
Agent	能自主规划、使用工具、完成复杂任务的AI系统	自动驾驶汽车	Claude Code、Cursor、Manus

类比

发动机 / 整车 / 自动驾驶

大模型是底层AI引擎，像一台裸露的发动机——动力强劲，但普通人不知道怎么直接用
应用把大模型包装成产品，像组装好的整车——有方向盘、座椅、仪表盘，普通人上车就能开
Agent更进一步，像自动驾驶汽车——不仅有车，还能自己规划路线、自己开到目的地

互动练习

请试着把下面10个名字分为三类：大模型、应用、还是Agent？

序号	名称	你的分类
1	GPT-4
2	ChatGPT（App）
3	豆包
4	通义千问（App）
5	Qwen-72B
6	Claude 3.5 Sonnet
7	DeepSeek-R1
8	Kimi
9	Claude Code
10	Cursor

答案

名称	分类	为什么
GPT-4	大模型	OpenAI的底层语言模型，是引擎本身
ChatGPT（App）	应用	基于GPT系列模型的产品，加了对话界面、记忆、搜索等功能
豆包	应用	字节跳动基于豆包大模型包装的产品
通义千问（App）	应用	阿里基于Qwen模型包装的产品
Qwen-72B	大模型	阿里的底层语言模型，72B是参数量
Claude 3.5 Sonnet	大模型	Anthropic的底层语言模型
DeepSeek-R1	大模型	DeepSeek的底层推理模型
Kimi	应用	月之暗面基于自研模型包装的产品
Claude Code	Agent	能自主读写文件、执行命令、完成编程任务
Cursor	Agent	能自主理解代码库、规划修改、执行编辑

你发现了吗？你日常接触到的，几乎全是应用——不是大模型本身。

常见误区

容易混淆的名字

"千问"既指底层大模型Qwen系列，也指通义千问App。说"我用了千问"时，多数人用的是App（应用），不是直接调用Qwen模型
"Claude"既指Anthropic的大模型系列（如Claude 3.5 Sonnet），也指claude.ai网页产品。网页版是应用，模型本身才是大模型
"豆包"是字节跳动的应用产品名，底层用的是豆包大模型。说"豆包很聪明"，其实是云雀模型在发挥作用

3.2 应用帮你"藏"起了什么？

第一课讲过上下文窗口、Temperature、知识截止——但你在用ChatGPT的时候，感受到过这些限制吗？大概率没有，因为应用层帮你处理掉了。

核心原理

大模型的"原始问题"	应用怎么帮你解决的	你的感受
上下文窗口有限，聊久了会"忘"	自动摘要、压缩历史对话	感觉AI一直记得
知识有截止日期，不知道最新信息	接入搜索引擎，实时检索	感觉AI什么都知道
只能处理文字，看不了图片和文件	加了OCR、文件解析等模块	感觉AI能读文件
Temperature参数影响输出随机性	预设合理参数，用户无需关心	感觉回答稳定可靠
容易产生幻觉，编造不存在的内容	RAG检索增强、事实核查模块	感觉准确度提高了
不能联网、不能执行代码	加了插件、代码解释器	感觉AI什么都能做

类比

井水与瓶装水

大模型 = 井里的水——原始的、可能有杂质、但你能看到真实的样子。

应用 = 瓶装水——经过过滤、消毒、包装，方便又安全，但你已经感受不到原始井水的样子了。

为什么重要

接下来讨论的"能力"和"局限"，说的是那口井里的水——大模型引擎本身。应用能补救一部分，但底层的某些问题应用解决不了。

3.3 大模型的核心能力——"大力出奇迹"

大模型之所以令人惊叹，不仅仅是因为它"大"，更是因为"大"到一定程度后，它突然获得了小模型完全不具备的能力。

定义

涌现能力是指小模型没有，但大模型突然就有了的能力。关键词是"突然"——不是慢慢变强，而是到了某个临界点，能力跳跃式提升。

类比

蚁群找最短路径

单只蚂蚁没有智能，只会随机游走、留下信息素
但成千上万只蚂蚁组成蚁群后，整体却能找到从巢穴到食物的最短路径

没有一只蚂蚁"知道"最短路径，但群体涌现出了这个能力。

学开车

刚开始学的时候，打方向盘、踩油门刹车、看后视镜，你分别都会了，但就是不会开车。然后突然有一天，你练到某个临界点，一切"串起来"了——你会开车了！这种从"各个技能都有"到"整体技能突然成立"的跳跃，就是涌现。

数据支撑

GPT-2（2019年）连完整文章都难写好，但GPT-4（2023年）已经能：

听懂复杂的、带多重约束的要求
逐步推理数学题，而不是瞎猜答案
只看几个例子就学会一个全新任务（少样本学习）

这不是"慢慢变好"，而是跨过临界点后的跳跃。

3.4 大模型的核心局限

涌现能力让人对大模型充满期待，但紧接着必须认识到它最危险的缺陷。幻觉是大模型最核心的局限性——不是可以修复的bug，而是这种技术的内在特性。

3.4.1 幻觉——一本正经地胡说八道

定义

AI幻觉是指AI生成的内容看起来合理且自信，但实际上是错误的或完全编造的。不是AI"故意骗你"，而是它的概率预测机制天然会产生这种问题。

真实案例

案例一：律师被罚款（2023年）

纽约一位律师用ChatGPT帮忙起草法律文书。文书中引用了6个"先例案件"来支持论点。问题是：这6个案件根本不存在——案件名称、案卷号、法官意见全是ChatGPT编造的，而且格式完美、逻辑自洽。法官发现后，律师事务所被罚款5000美元。

来源：中新网报道

案例二：市长被"定罪"

澳大利亚一位市长发现ChatGPT声称他曾因贿赂罪被定罪入狱。事实是他从未有任何犯罪记录，一切完全虚构。

案例三：编造学术引用

一位科学家故意用一个不存在的学术术语测试ChatGPT。AI不仅给出了听起来很专业的解释，还"引用"了多篇"权威论文"——这些论文全部是编造的。

核心原理

原因	说明
概率机制	AI选择的是"最可能"的下一个词，不是"正确"的词。"听起来对"和"真的对"是两回事
训练数据局限	训练数据可能含错误信息；有些正确信息AI未必学到；知识有截止日期
没有自知之明	AI不知道自己不知道什么，无法区分"确定的事实"和"不确定的猜测"，回答时总是很自信
模式匹配	AI学会的是语言的"模式"，不是真正的"理解"。它会生成符合模式的内容，但模式不等于事实

权威引用

"Hallucination is Inevitable: An Innate Limitation of Large Language Models"（幻觉是不可避免的：大语言模型的固有局限性）

该论文从理论上证明：对于任何可计算的大语言模型，幻觉在数学上不可能完全消除。

回忆3.2节：应用层通过搜索引擎、RAG等手段缓解幻觉，但"缓解"≠"消除"。底层的概率生成机制决定了幻觉是这类AI的内在特性。

适用场景

场景	幻觉风险
创意写作、头脑风暴	低——"编造"在这里反而是优点
解释常见概念、大众知识	低——训练数据中覆盖充分
具体数字、日期、统计数据	中——需要交叉验证
学术引用、论文出处	高——AI特别喜欢编造论文
法律条文、医疗建议	极高——错误可能造成严重后果

3.4.2 其他核心局限与Agent引出

分类

局限	说明	应用能补救吗？
知识截止日期	训练数据有时间截止点，之后的事情完全不知道	可以——接入搜索引擎
上下文长度限制	一次对话能处理的文本量有限，聊久了会"忘"	部分——自动摘要，但会丢信息
数学计算不可靠	本质是"预测下一个字"，不是真正计算	可以——接入代码解释器
长链推理易出错	推理步骤多时错误逐步累积	部分——分步验证技巧缓解
缺乏真正理解	没有常识推理和物理世界体验	很难——这是根本性局限
无法访问外部世界	不能搜索、发邮件、读文件、执行代码	可以——加插件和工具

深入理解

关于上下文限制

应用帮你"隐藏"了上下文限制，但隐藏不等于解决。为什么不能把30MB的文件丢给AI？为什么聊久了AI好像忘了开头说的话？因为应用的压缩和摘要机制必然会丢失信息——它只是让你"感觉不到"这个限制，而不是真正消除了它。

引出Agent

注意上面表格中"无法访问外部世界"这一行。

大模型只能生成文字，不能搜索网页、不能发邮件、不能读写文件、不能执行代码。应用的解法是给大模型加插件和工具。

但如果更进一步——让AI自主决定用什么工具、自己规划执行步骤、自己完成整个任务呢？

这就引出了关键概念：Agent。

还记得分类练习中的Claude Code和Cursor吗？它们就是Agent——不只是给你建议，而是真的帮你干活。Agent不仅有"引擎"（大模型）和"车身"（应用界面），还有"自动驾驶系统"——能自主规划路线并到达目的地。

3.5 如何正确使用AI？

理解了AI的能力和局限之后，最重要的问题是：如何在实践中扬长避短？

定义

黄金法则——AI是非常强大的助手，但不是全知全能的权威。核心原则是"信任但要核实"（Trust but Verify）。

分类

可以信任AI做的事（低风险）

头脑风暴、获取灵感
起草初稿、整理思路
解释概念、学习新知识
编程辅助、代码建议
翻译、润色、总结

必须核实AI输出的场景（高风险）

任何涉及具体事实的内容
数字、日期、引用来源
专业领域的建议（法律、医疗、金融）
关于真实人物、事件的陈述
任何高风险决策

操作步骤

技巧一：要求提供来源

请回答这个问题，并说明你的信息来源。如果不确定，请明确告诉我。

技巧二：让AI承认不确定性

如果你不知道答案或不确定，请直接说"我不确定"，不要编造。

技巧三：分步骤验证

把复杂问题拆成小问题，逐步验证每一步的输出是否合理。

技巧四：交叉验证

重要信息用搜索引擎确认，专业问题咨询专业人士。不要把AI的输出当作唯一信息来源。

类比

把AI当成一个博学但偶尔犯错的同事。他读过很多书，见识广博，你可以和他讨论想法、让他帮你起草方案。但涉及重要的数据和事实，你还是会自己核实一遍——因为你知道他有时候会记错。

AI是需要你审核的实习生，而不是可以完全信赖的权威。

本章小结

知识点	一句话总结
什么是大模型	大模型（LLM）是底层AI引擎，你手机上的ChatGPT/豆包是应用，Agent能自主完成任务
应用藏了什么	应用帮你隐藏了上下文限制、温度参数等原始问题，大模型=井水，应用=瓶装水
涌现能力	模型规模达到临界点后能力跳跃式提升，从GPT-2写不好文章到GPT-4听懂复杂指令
核心局限	AI会编造看似合理但错误的内容（幻觉），且无法访问外部世界——这催生了Agent
正确使用策略	充分利用AI的创意和辅助能力，但对事实、数据、专业建议必须人工核实

本章的核心认知：你手机上用的不是大模型，而是精心包装过的应用。了解大模型的真实能力和局限，是理解整个AI世界的基础。从"无法访问外部世界"这个局限出发，你就能理解为什么我们需要Agent。

练习

动手练习1

产品分类练习

打开手机上所有AI相关的App，想想它们各自用的是哪个底层大模型？在大模型之上加了哪些功能？

动手练习2

感受"应用层"的存在

在ChatGPT或豆包中问最近的新闻。如果它能回答，思考：这是大模型"知道"的，还是应用帮它"搜"的？

思考题

回顾分类练习——Claude Code和Cursor被归为"Agent"，而ChatGPT和豆包被归为"应用"。它们之间的根本区别是什么？为什么说Agent不只是"加了插件的应用"？

提示：思考"自主行动"这个关键词。答案将在下节课揭晓。