Chapter 03

认识大模型——从日常产品到能力边界

核心问题 什么是大模型?什么是应用?大模型真正的能力边界在哪里? 阅读收获 区分大模型与应用产品,理解涌现能力和幻觉问题,建立合理使用期望

本章概览

如果我问你"你用过大模型吗?",很多人会说用过ChatGPT、豆包。但你手机上的App和"大模型"可能根本不是一回事。本章先搞清楚这个概念,再看大模型的真正能力和局限。

3.1 什么是大模型?(大模型 vs 应用 vs Agent) │ ├──→ 3.2 应用帮你"藏"起了什么?(井水与瓶装水) │ ├──→ 3.3 涌现能力(大力出奇迹) │ ├──→ 3.4 核心局限(幻觉 + 其他局限 → 引出Agent) │ └──→ 3.5 正确使用AI的策略(信任但要核实)
阅读建议:3.1节"什么是大模型"是本章的概念基础;3.4节"核心局限"是重点,尤其是幻觉问题和向Agent的过渡。

3.1 什么是大模型?你用的到底是什么?

这是理解整个AI世界的起点。你手机上装的ChatGPT、豆包、千问,和我们说的"大模型",是完全不同的东西。
时间线
时间模型关键节点
2019GPT-2能写出连贯段落,但经常跑题、逻辑混乱
2020GPT-3参数量达到175B,少样本学习能力涌现
2022GPT-3.5ChatGPT发布,AI进入大众视野
2023GPT-4多模态能力,律师考试超过90%考生
2024GPT-4o / Claude 3.5速度与能力兼顾,竞争加剧
2025GPT-4.5 / GPT-5推理能力再次跃升
2024-2025Qwen / DeepSeek / ERNIE国产大模型迅速追赶,部分能力接近前沿

注意——GPT-2、GPT-3、GPT-4、Claude 3.5、Qwen、DeepSeek——它们才是"大模型"。那你手机上装的那些App呢?

定义

大模型世界有三个层级:大模型(LLM)是AI的底层引擎;基于大模型的应用是包装成产品的整车;Agent不仅有引擎和车身,还能自主完成任务。

层级是什么类比举例
大模型(LLM)底层AI引擎,只接受文字输入、输出文字裸露的发动机GPT-4、Claude 3.5 Sonnet、Qwen-72B、DeepSeek-R1
应用基于大模型包装的产品,加了界面、记忆、搜索等功能组装好的整车ChatGPT App、豆包、Kimi、通义千问 App
Agent能自主规划、使用工具、完成复杂任务的AI系统自动驾驶汽车Claude Code、Cursor、Manus
类比

发动机 / 整车 / 自动驾驶

  • 大模型是底层AI引擎,像一台裸露的发动机——动力强劲,但普通人不知道怎么直接用
  • 应用把大模型包装成产品,像组装好的整车——有方向盘、座椅、仪表盘,普通人上车就能开
  • Agent更进一步,像自动驾驶汽车——不仅有车,还能自己规划路线、自己开到目的地
互动练习

请试着把下面10个名字分为三类:大模型、应用、还是Agent?

序号名称你的分类
1GPT-4
2ChatGPT(App)
3豆包
4通义千问(App)
5Qwen-72B
6Claude 3.5 Sonnet
7DeepSeek-R1
8Kimi
9Claude Code
10Cursor
答案
名称分类为什么
GPT-4大模型OpenAI的底层语言模型,是引擎本身
ChatGPT(App)应用基于GPT系列模型的产品,加了对话界面、记忆、搜索等功能
豆包应用字节跳动基于豆包大模型包装的产品
通义千问(App)应用阿里基于Qwen模型包装的产品
Qwen-72B大模型阿里的底层语言模型,72B是参数量
Claude 3.5 Sonnet大模型Anthropic的底层语言模型
DeepSeek-R1大模型DeepSeek的底层推理模型
Kimi应用月之暗面基于自研模型包装的产品
Claude CodeAgent能自主读写文件、执行命令、完成编程任务
CursorAgent能自主理解代码库、规划修改、执行编辑

你发现了吗?你日常接触到的,几乎全是应用——不是大模型本身。

常见误区

容易混淆的名字

  • "千问"既指底层大模型Qwen系列,也指通义千问App。说"我用了千问"时,多数人用的是App(应用),不是直接调用Qwen模型
  • "Claude"既指Anthropic的大模型系列(如Claude 3.5 Sonnet),也指claude.ai网页产品。网页版是应用,模型本身才是大模型
  • "豆包"是字节跳动的应用产品名,底层用的是豆包大模型。说"豆包很聪明",其实是云雀模型在发挥作用

3.2 应用帮你"藏"起了什么?

第一课讲过上下文窗口、Temperature、知识截止——但你在用ChatGPT的时候,感受到过这些限制吗?大概率没有,因为应用层帮你处理掉了。
核心原理
大模型的"原始问题"应用怎么帮你解决的你的感受
上下文窗口有限,聊久了会"忘"自动摘要、压缩历史对话感觉AI一直记得
知识有截止日期,不知道最新信息接入搜索引擎,实时检索感觉AI什么都知道
只能处理文字,看不了图片和文件加了OCR、文件解析等模块感觉AI能读文件
Temperature参数影响输出随机性预设合理参数,用户无需关心感觉回答稳定可靠
容易产生幻觉,编造不存在的内容RAG检索增强、事实核查模块感觉准确度提高了
不能联网、不能执行代码加了插件、代码解释器感觉AI什么都能做
类比

井水与瓶装水

大模型 = 井里的水——原始的、可能有杂质、但你能看到真实的样子。

应用 = 瓶装水——经过过滤、消毒、包装,方便又安全,但你已经感受不到原始井水的样子了。

为什么重要

接下来讨论的"能力"和"局限",说的是那口井里的水——大模型引擎本身。应用能补救一部分,但底层的某些问题应用解决不了。

3.3 大模型的核心能力——"大力出奇迹"

大模型之所以令人惊叹,不仅仅是因为它"大",更是因为"大"到一定程度后,它突然获得了小模型完全不具备的能力。
定义

涌现能力是指小模型没有,但大模型突然就有了的能力。关键词是"突然"——不是慢慢变强,而是到了某个临界点,能力跳跃式提升。

类比

蚁群找最短路径

  • 单只蚂蚁没有智能,只会随机游走、留下信息素
  • 但成千上万只蚂蚁组成蚁群后,整体却能找到从巢穴到食物的最短路径

没有一只蚂蚁"知道"最短路径,但群体涌现出了这个能力。

学开车

刚开始学的时候,打方向盘、踩油门刹车、看后视镜,你分别都会了,但就是不会开车。然后突然有一天,你练到某个临界点,一切"串起来"了——你会开车了!这种从"各个技能都有"到"整体技能突然成立"的跳跃,就是涌现。

数据支撑

GPT-2(2019年)连完整文章都难写好,但GPT-4(2023年)已经能:

  • 听懂复杂的、带多重约束的要求
  • 逐步推理数学题,而不是瞎猜答案
  • 只看几个例子就学会一个全新任务(少样本学习)

这不是"慢慢变好",而是跨过临界点后的跳跃。

相关概念

你可能听过的一个词:Scaling Law

如果你关注AI新闻,可能经常看到"Scaling Law"这个词。它和涌现能力密切相关,但说的不是同一件事:

  • Scaling Law(规模定律):模型越大、训练数据越多、算力越强,AI的整体表现就越好——而且这种提升是有规律的、可以预测的。简单说就是"大力出奇迹"的数学版本。
  • 涌现能力:在"越大越好"的过程中,到了某些临界点,AI会突然冒出全新的能力——不是慢慢变好,而是从"完全不会"变成"突然会了"。

两者的关系是:Scaling Law 是"大力",涌现是"奇迹"。正因为模型不断变大(Scaling Law),才在某些节点上涌现出了意想不到的新能力。所以当你在新闻里看到"Scaling Law"时,可以理解为:AI领域发现了一条规律——把模型做大,就能持续变强,而且变强的过程中还会蹦出惊喜。

常见误区

"涌现是不是假象?"

2023年NeurIPS最佳论文《Are Emergent Abilities of Large Language Models a Mirage?》质疑:涌现可能是度量幻觉——不是能力"突然出现",而是非线性的评测指标造成了这种假象。

但无论学术争论的结论如何,大模型确实比小模型强得多——任何用过GPT-2和GPT-4的人都能感受到这种巨大差距。

3.4 大模型的核心局限

涌现能力让人对大模型充满期待,但紧接着必须认识到它最危险的缺陷。幻觉是大模型最核心的局限性——不是可以修复的bug,而是这种技术的内在特性。
3.4.1 幻觉——一本正经地胡说八道
定义

AI幻觉是指AI生成的内容看起来合理且自信,但实际上是错误的或完全编造的。不是AI"故意骗你",而是它的概率预测机制天然会产生这种问题。

真实案例

案例一:律师被罚款(2023年)

纽约一位律师用ChatGPT帮忙起草法律文书。文书中引用了6个"先例案件"来支持论点。问题是:这6个案件根本不存在——案件名称、案卷号、法官意见全是ChatGPT编造的,而且格式完美、逻辑自洽。法官发现后,律师事务所被罚款5000美元。

来源:中新网报道

案例二:市长被"定罪"

澳大利亚一位市长发现ChatGPT声称他曾因贿赂罪被定罪入狱。事实是他从未有任何犯罪记录,一切完全虚构。

案例三:编造学术引用

一位科学家故意用一个不存在的学术术语测试ChatGPT。AI不仅给出了听起来很专业的解释,还"引用"了多篇"权威论文"——这些论文全部是编造的。

核心原理
原因说明
概率机制AI选择的是"最可能"的下一个词,不是"正确"的词。"听起来对"和"真的对"是两回事
训练数据局限训练数据可能含错误信息;有些正确信息AI未必学到;知识有截止日期
没有自知之明AI不知道自己不知道什么,无法区分"确定的事实"和"不确定的猜测",回答时总是很自信
模式匹配AI学会的是语言的"模式",不是真正的"理解"。它会生成符合模式的内容,但模式不等于事实
权威引用

"Hallucination is Inevitable: An Innate Limitation of Large Language Models"(幻觉是不可避免的:大语言模型的固有局限性)

该论文从理论上证明:对于任何可计算的大语言模型,幻觉在数学上不可能完全消除。

回忆3.2节:应用层通过搜索引擎、RAG等手段缓解幻觉,但"缓解"≠"消除"。底层的概率生成机制决定了幻觉是这类AI的内在特性。

适用场景
场景幻觉风险
创意写作、头脑风暴低——"编造"在这里反而是优点
解释常见概念、大众知识低——训练数据中覆盖充分
具体数字、日期、统计数据中——需要交叉验证
学术引用、论文出处高——AI特别喜欢编造论文
法律条文、医疗建议极高——错误可能造成严重后果
3.4.2 其他核心局限与Agent引出
分类
局限说明应用能补救吗?
知识截止日期训练数据有时间截止点,之后的事情完全不知道可以——接入搜索引擎
上下文长度限制一次对话能处理的文本量有限,聊久了会"忘"部分——自动摘要,但会丢信息
数学计算不可靠本质是"预测下一个字",不是真正计算可以——接入代码解释器
长链推理易出错推理步骤多时错误逐步累积部分——分步验证技巧缓解
缺乏真正理解没有常识推理和物理世界体验很难——这是根本性局限
无法访问外部世界不能搜索、发邮件、读文件、执行代码可以——加插件和工具
深入理解

关于上下文限制

应用帮你"隐藏"了上下文限制,但隐藏不等于解决。为什么不能把30MB的文件丢给AI?为什么聊久了AI好像忘了开头说的话?因为应用的压缩和摘要机制必然会丢失信息——它只是让你"感觉不到"这个限制,而不是真正消除了它。

引出Agent

注意上面表格中"无法访问外部世界"这一行。

大模型只能生成文字,不能搜索网页、不能发邮件、不能读写文件、不能执行代码。应用的解法是给大模型加插件和工具。

但如果更进一步——让AI自主决定用什么工具、自己规划执行步骤、自己完成整个任务呢?

这就引出了关键概念:Agent。

还记得分类练习中的Claude Code和Cursor吗?它们就是Agent——不只是给你建议,而是真的帮你干活。Agent不仅有"引擎"(大模型)和"车身"(应用界面),还有"自动驾驶系统"——能自主规划路线并到达目的地。

3.5 如何正确使用AI?

理解了AI的能力和局限之后,最重要的问题是:如何在实践中扬长避短?
定义

黄金法则——AI是非常强大的助手,但不是全知全能的权威。核心原则是"信任但要核实"(Trust but Verify)。

分类

可以信任AI做的事(低风险)

  • 头脑风暴、获取灵感
  • 起草初稿、整理思路
  • 解释概念、学习新知识
  • 编程辅助、代码建议
  • 翻译、润色、总结

必须核实AI输出的场景(高风险)

  • 任何涉及具体事实的内容
  • 数字、日期、引用来源
  • 专业领域的建议(法律、医疗、金融)
  • 关于真实人物、事件的陈述
  • 任何高风险决策
操作步骤

技巧一:要求提供来源

请回答这个问题,并说明你的信息来源。如果不确定,请明确告诉我。

技巧二:让AI承认不确定性

如果你不知道答案或不确定,请直接说"我不确定",不要编造。

技巧三:分步骤验证

把复杂问题拆成小问题,逐步验证每一步的输出是否合理。

技巧四:交叉验证

重要信息用搜索引擎确认,专业问题咨询专业人士。不要把AI的输出当作唯一信息来源。

类比

把AI当成一个博学但偶尔犯错的同事。他读过很多书,见识广博,你可以和他讨论想法、让他帮你起草方案。但涉及重要的数据和事实,你还是会自己核实一遍——因为你知道他有时候会记错。

AI是需要你审核的实习生,而不是可以完全信赖的权威。

本章小结

知识点一句话总结
什么是大模型大模型(LLM)是底层AI引擎,你手机上的ChatGPT/豆包是应用,Agent能自主完成任务
应用藏了什么应用帮你隐藏了上下文限制、温度参数等原始问题,大模型=井水,应用=瓶装水
涌现能力模型规模达到临界点后能力跳跃式提升,从GPT-2写不好文章到GPT-4听懂复杂指令
核心局限AI会编造看似合理但错误的内容(幻觉),且无法访问外部世界——这催生了Agent
正确使用策略充分利用AI的创意和辅助能力,但对事实、数据、专业建议必须人工核实

本章的核心认知:你手机上用的不是大模型,而是精心包装过的应用。了解大模型的真实能力和局限,是理解整个AI世界的基础。从"无法访问外部世界"这个局限出发,你就能理解为什么我们需要Agent。

练习

动手练习1

产品分类练习

打开手机上所有AI相关的App,想想它们各自用的是哪个底层大模型?在大模型之上加了哪些功能?

动手练习2

感受"应用层"的存在

在ChatGPT或豆包中问最近的新闻。如果它能回答,思考:这是大模型"知道"的,还是应用帮它"搜"的?

思考题

回顾分类练习——Claude Code和Cursor被归为"Agent",而ChatGPT和豆包被归为"应用"。它们之间的根本区别是什么?为什么说Agent不只是"加了插件的应用"?

提示:思考"自主行动"这个关键词。答案将在下节课揭晓。

参考资料