1
词预测机器
2
Token 与嵌入
3
注意力机制
4
训练的规模
5
RLHF 对齐
6
温度与创造力
7
历史溯源
8
教育思辨
第一步:下一个词预测机器
大语言模型的本质是一个数学函数:输入任意文本,输出所有可能的下一个词及其概率。聊天机器人通过反复调用这个函数,一词一词地生成完整回应。
↑ 点击上方候选词,将其追加到文本末尾
LLM 在做什么

给定文本上下文 $x$,LLM 计算下一个词的概率分布: $$P(\text{下一个词} \mid \text{上下文 }x)$$ 聊天机器人的完整流程:
① 将「系统提示 + 用户问题」拼接为上下文
② 从概率分布中采样一个词
③ 追加到上下文末尾
④ 重复 ②③,直到生成结束符

为什么每次回答不一样?

若每次都选最高概率的词,输出会过于单调重复。实际系统会按概率随机采样,允许低概率词偶尔入选,使生成更自然流畅。

这意味着:模型本身是确定的数学函数,但由于采样引入了随机性,同一个问题每次会得到不同的回答。

第二步:Token 与向量嵌入
神经网络只能处理数字,语言模型的第一步是将文字转换成数字向量。相似含义的词,在向量空间中距离更近——这让模型能感知"语义距离"。
输入一段文字,观察它被切分成 Token 的过程:
中文 英文 中英混合
点击「切分」后显示…
点击画布中的词查看语义近邻
Token 是什么

Token 是模型处理语言的最小单位,可以是一个汉字、一个英文词或词的一部分(子词)。

英文例子:educationeduc + ation
中文:一般每个汉字是一个 Token

GPT 系列模型约有 100,000 种不同 Token。

词向量(Embedding)

每个 Token 被映射为一个高维向量,例如 GPT-3 使用 12,288 维向量。

左图展示了将高维向量降维到 2D 后的效果(PCA 降维模拟):
• 🔵 相同颜色区域 = 语义相近的词聚在一起
• 点击任意词 → 高亮显示最近邻

经典类比:国王 − 男人 + 女人 ≈ 王后

为什么需要向量?

训练过程(反向传播)只能对连续数值求梯度。将离散的词语编码为连续向量,才能让梯度下降算法自动调整模型参数——这是神经网络处理语言的基础。

第三步:Transformer 与注意力机制
注意力机制(Attention)让模型在处理每个词时,能够"看到"整个句子的上下文。同一个词在不同语境下,会关注不同的其他词,从而理解不同的含义。
↑ 点击句中任意词,查看它「关注」哪些词
注意力机制的直觉

处理每个词时,模型会问:「我需要关注哪些其他词来理解自己的含义?」

以「花」为例:
• 在「院子里的开了」中 → 关注「开」「院子」→ 确定为花朵
• 在「他了很多钱」中 → 关注「钱」→ 确定为花费

这种消歧能力是 Transformer 区别于早期 RNN 的核心优势。

并行处理 vs 顺序处理

RNN(2017年前):逐词处理,后面的词只能依次"接力"获取前面词的信息

Transformer(2017):所有词同时互相"交流",一次处理整个句子,可充分并行——这使 GPU 大规模训练成为可能。

多头注意力

实际的 Transformer 有多个注意力头(如 GPT-3 有 96 个头)并行运行。不同的头可以同时关注语法关系、语义关系、指代关系等不同维度——就像用多个视角同时理解同一句话。

第四步:训练的规模
大语言模型之所以"大",体现在参数数量、训练数据规模和所需算力三个维度。这三个数字大到令人难以直觉感知——下面用类比来帮助理解。
模型参数量(以 GPT-3 为例)
175 亿
相当于机器上的 1750 亿个可调「旋钮」,每个参数都是一个连续数值,由训练自动调定。人脑突触约 100 万亿个,LLM 参数量已达同量级。
训练数据量(GPT-3)
2600 年
普通人不眠不休、24 小时连续阅读,需要超过 2600 年才能读完 GPT-3 的训练数据。更新的模型训练量远超于此。
训练所需算力
1 亿年
若你以每秒 10 亿次加减乘除的速度计算,完成最大模型的训练需要超过 1 亿年。这只有通过数万块 GPU 大规模并行才能实现。
训练类比:调旋钮

训练初始时,所有参数随机设置——模型只会输出乱码。

训练过程中,每次喂入一段文字的「前 n−1 个词」,让模型预测「第 n 个词」,再用反向传播微调所有参数,使模型更倾向于输出正确答案。

对数万亿个样本重复这一过程后,模型开始能对从未见过的文本做出合理预测。

为什么需要 GPU?

GPU(图形处理器)专为大规模并行计算设计,可同时执行数千个矩阵运算。Transformer 的注意力计算天然适合并行,使得用数万块 GPU 组成集群来训练大模型成为可能。

参数不是人工设计的
没有任何工程师手动设置过这 1750 亿个参数。它们完全由训练数据和反向传播算法自动决定——这也是为什么我们很难解释模型为何做出特定预测。
第五步:从预训练到助手——RLHF
「续写互联网文本」和「做一个有用的 AI 助手」是两件完全不同的事。在预训练之后,还需要第二阶段训练——基于人类反馈的强化学习(RLHF),才能让模型真正变成助手。
RLHF 释义

Reinforcement Learning from Human Feedback

= 基于人类反馈的强化学习

R — 强化 对好回答给予奖励,让模型趋向更优行为
L — 学习 通过 PPO 等算法持续调整模型参数
H — 人类 由真实标注员提供偏好判断,而非程序规则
F — 反馈 标注员对两条回答作出「哪个更好」的比较打分
RLHF 流程示意图
两个阶段,两种目标
预训练(左)让模型从海量文本中学会语言规律,输出的是一个擅长续写的「文字接龙机器」; RLHF(右)让人类标注员对回答打分,训练奖励模型,再用强化学习把参数推向「人类偏好」的方向,才最终变成有用的助手。
预训练模型(续写风格)
经 RLHF 对齐后
RLHF 的局限

RLHF 让模型学会产生人类喜欢的回答,但「讨人喜欢」≠「真实正确」。这可能导致模型过度自信、回避不确定性,甚至「幻觉」(生成听起来合理但错误的内容)——这是当前 AI 对齐研究的核心挑战。

第六步:温度参数与创造力
「温度」(Temperature)控制采样时的随机程度。低温让模型保守而确定,高温让输出更多样但可能离题。调节温度,是在确定性与创造性之间寻找平衡。
当前上下文:
温度 T = 1.0 平衡——多样但连贯
低温(保守) 中温(平衡) 高温(创意)
带温度的 Softmax

模型先输出每个词的原始分数(logit),再通过带温度的 Softmax 转换为概率:

$$P(w_i) = \frac{e^{z_i / T}}{\displaystyle\sum_j e^{z_j / T}}$$

• T → 0:最高分词概率趋近 1,其他趋近 0(贪婪解码)
• T = 1:标准概率分布
• T → ∞:所有词概率趋于相等(完全随机)

实践中的温度选择

T ≈ 0.3–0.7:代码生成、事实问答(高确定性)
T ≈ 0.7–1.0:对话助手、文字润色(平衡)
T ≈ 1.0–1.5:创意写作、头脑风暴(多样性)
T > 1.5:通常质量下降,较少使用

随机性来自温度,不来自模型本身
给定相同上下文,模型每次输出的 logit 完全相同。正是采样步骤中的随机性,导致了同一问题的不同回答。
第七步:历史溯源——Transformer 的诞生
大语言模型的崛起并非一夜之间,而是几十年研究积累的结果。2017 年的一篇论文改变了 NLP 的历史,也间接改变了人类与 AI 的交互方式。
语言模型发展时间线
  • 1980s 循环神经网络 RNN
    顺序逐词处理,长文本记忆衰退,无法并行,训练极慢
  • 1997 LSTM(长短期记忆网络)
    Hochreiter & Schmidhuber,用门控结构缓解梯度消失,但仍是顺序处理
  • 2015 Attention 机制引入
    Bahdanau 等人首次将注意力用于机器翻译,允许模型关注输入的不同部分
  • 2017 Transformer ——《Attention Is All You Need
    Vaswani 等 8 人(Google Brain),完全抛弃 RNN,纯注意力结构,并行高效——现代 LLM 的基石
  • 2018 BERT(双向 Transformer)
    Google,双向上下文理解,NLP 各项基准测试大幅突破
  • 2019 GPT-2(OpenAI)
    15 亿参数,生成质量惊艳学界,引发"AI 写作"的广泛讨论
  • 2020 GPT-3
    1750 亿参数,few-shot 学习能力令研究界震惊
  • 2022 ChatGPT 破圈
    RLHF 对齐 + 对话界面,5 天用户破百万,大众进入"LLM 时代"
  • 2023+ 多模型并立
    GPT-4、Claude、Gemini、文心一言、通义千问、Llama…进入生态繁荣期
从 RNN、LSTM、Attention、Transformer 到 LLM 的手绘发展历史插图
从顺序接力,到门控记忆、跨距关注、并行互联,再到规模涌现的 LLM。
《Attention Is All You Need》论文封面
2017:Transformer 的转折点
Attention Is All You Need》提出:只用注意力机制完成语言建模,不再依赖 RNN。
并行训练
充分利用 GPU
长上下文
保留更多信息
可扩展
催生涌现能力
从一篇论文到一个产业生态

8 位作者当时都在 Google Brain,之后分散到多个重要 AI 方向,说明 Transformer 不只是一个模型结构,也成为人才与创业生态的起点。

Shazeer → Character.AI Gomez → Cohere Kaiser → OpenAI Uszkoreit → Inceptive 其余仍在 Google DeepMind 等机构
涌现能力(Emergent Abilities)
模型扩展到足够大后,会突然获得小模型完全不具备的能力(如推理、算术),这种"量变引发质变"的现象至今仍是研究热点,机制尚不完全清楚。
第八步:教育思辨——大语言模型走进课堂
理解了 LLM 的原理,再来思考它对教育的意义。作为未来的教师,不仅要会用,更要能引导学生在 AI 时代建立正确的认知与能力。
AI 进课堂,教师先问三件事的手绘插图
面对 AI 进课堂,教师要先追问理解、评价与协作方式。
Q1:LLM 真的「理解」语言吗?
LLM 学会的是:哪些词序列在海量文本中高频出现。它极为精妙地捕捉了语言的统计规律,能生成语义连贯的文本——但这是否等同于人类的「理解」?

LLM 没有身体感知、没有因果推理、没有持续记忆。它的「理解」是一种模式匹配,而非概念建构。在课堂上,帮助学生区分这两者,是培养 AI 素养的关键。
Q2:学生用 AI 完成作业,评价方式该如何演变?
AI 可以在秒级内完成绝大多数传统作业,但它无法替代真实情境中的创造、协作与判断

教育评价的转向建议:从「结果正确」转向「过程可见」,从「标准答案」转向「论证与反思」,从「个人独立」转向「人机协作的批判性使用」。
Q3:如何培养学生与 AI 协作而非依赖 AI 的能力?
过度依赖 AI 会弱化学生的元认知能力——不知道自己不知道什么,无法判断 AI 答案的质量。

教学建议:先让学生独立思考并形成判断,再用 AI 辅助验证与扩展;教会学生对 AI 输出进行事实核查与批判性评估,而不是直接接受。
把 AI 当协作伙伴而非答案机器的手绘插图
让 AI 提供信息与灵感,让人类负责判断、修改与反思。
🔍 批判性审视 AI 输出
大语言模型会自信地说出错误的事实(「幻觉」)。教师应设计任务让学生主动核查 AI 的输出,而非将其视为权威。可以把「找出 AI 的错误」本身设计为学习活动。
🎓 设计 AI 参与型新任务
将 AI 作为协作伙伴而非答案机器:让学生提示词工程(设计 prompt)、让学生评价 AI 的多个回答、让学生在 AI 草稿基础上修改润色——这些都是新时代的核心技能。
📖 把 LLM 原理本身作为教学内容
理解「LLM 是概率性下一词预测器」,能从根本上帮助学生建立合理预期——知道它为什么会幻觉、为什么会重复、为什么不能可靠地推理数学。原理教育是最好的媒介素养
给未来教师的提醒
最好的 AI 教育,不是教会学生怎么用 ChatGPT 完成作业,而是帮助学生理解:AI 是怎么工作的、它能做什么、它不能做什么、以及我们应该在它做不到的地方发展真正属于人类的能力。