大语言模型原理交互演示

第一步：下一个词预测机器

大语言模型的本质是一个数学函数：输入任意文本，输出所有可能的下一个词及其概率。聊天机器人通过反复调用这个函数，一词一词地生成完整回应。

↑ 点击上方候选词，将其追加到文本末尾

LLM 在做什么

给定文本上下文 $x$，LLM 计算下一个词的概率分布： $$P(\text{下一个词} \mid \text{上下文 }x)$$ 聊天机器人的完整流程：
① 将「系统提示 + 用户问题」拼接为上下文
② 从概率分布中采样一个词
③ 追加到上下文末尾
④ 重复 ②③，直到生成结束符

为什么每次回答不一样？

若每次都选最高概率的词，输出会过于单调重复。实际系统会按概率随机采样，允许低概率词偶尔入选，使生成更自然流畅。

这意味着：模型本身是确定的数学函数，但由于采样引入了随机性，同一个问题每次会得到不同的回答。

← 返回主页

第二步：Token 与向量嵌入

神经网络只能处理数字，语言模型的第一步是将文字转换成数字向量。相似含义的词，在向量空间中距离更近——这让模型能感知"语义距离"。

输入一段文字，观察它被切分成 Token 的过程：

中文英文中英混合

点击「切分」后显示…

点击画布中的词查看语义近邻

Token 是什么

Token 是模型处理语言的最小单位，可以是一个汉字、一个英文词或词的一部分（子词）。

英文例子：education → educ + ation
中文：一般每个汉字是一个 Token

GPT 系列模型约有 100,000 种不同 Token。

词向量（Embedding）

每个 Token 被映射为一个高维向量，例如 GPT-3 使用 12,288 维向量。

左图展示了将高维向量降维到 2D 后的效果（PCA 降维模拟）：
• 🔵 相同颜色区域 = 语义相近的词聚在一起
• 点击任意词 → 高亮显示最近邻

经典类比：国王 − 男人 + 女人 ≈ 王后

为什么需要向量？

训练过程（反向传播）只能对连续数值求梯度。将离散的词语编码为连续向量，才能让梯度下降算法自动调整模型参数——这是神经网络处理语言的基础。

← 主页

第三步：Transformer 与注意力机制

注意力机制（Attention）让模型在处理每个词时，能够"看到"整个句子的上下文。同一个词在不同语境下，会关注不同的其他词，从而理解不同的含义。

↑ 点击句中任意词，查看它「关注」哪些词

注意力机制的直觉

处理每个词时，模型会问：「我需要关注哪些其他词来理解自己的含义？」

以「花」为例：
• 在「院子里的花开了」中 → 关注「开」「院子」→ 确定为花朵
• 在「他花了很多钱」中 → 关注「钱」→ 确定为花费

这种消歧能力是 Transformer 区别于早期 RNN 的核心优势。

并行处理 vs 顺序处理

RNN（2017年前）：逐词处理，后面的词只能依次"接力"获取前面词的信息

Transformer（2017）：所有词同时互相"交流"，一次处理整个句子，可充分并行——这使 GPU 大规模训练成为可能。

多头注意力

实际的 Transformer 有多个注意力头（如 GPT-3 有 96 个头）并行运行。不同的头可以同时关注语法关系、语义关系、指代关系等不同维度——就像用多个视角同时理解同一句话。

← 主页

第四步：训练的规模

大语言模型之所以"大"，体现在参数数量、训练数据规模和所需算力三个维度。这三个数字大到令人难以直觉感知——下面用类比来帮助理解。

模型参数量（以 GPT-3 为例）

175 亿

相当于机器上的 1750 亿个可调「旋钮」，每个参数都是一个连续数值，由训练自动调定。人脑突触约 100 万亿个，LLM 参数量已达同量级。

训练数据量（GPT-3）

2600 年

普通人不眠不休、24 小时连续阅读，需要超过 2600 年才能读完 GPT-3 的训练数据。更新的模型训练量远超于此。

训练所需算力

1 亿年

若你以每秒 10 亿次加减乘除的速度计算，完成最大模型的训练需要超过 1 亿年。这只有通过数万块 GPU 大规模并行才能实现。

训练类比：调旋钮

训练初始时，所有参数随机设置——模型只会输出乱码。

训练过程中，每次喂入一段文字的「前 n−1 个词」，让模型预测「第 n 个词」，再用反向传播微调所有参数，使模型更倾向于输出正确答案。

对数万亿个样本重复这一过程后，模型开始能对从未见过的文本做出合理预测。

为什么需要 GPU？

GPU（图形处理器）专为大规模并行计算设计，可同时执行数千个矩阵运算。Transformer 的注意力计算天然适合并行，使得用数万块 GPU 组成集群来训练大模型成为可能。

参数不是人工设计的
没有任何工程师手动设置过这 1750 亿个参数。它们完全由训练数据和反向传播算法自动决定——这也是为什么我们很难解释模型为何做出特定预测。

← 主页

第五步：从预训练到助手——RLHF

「续写互联网文本」和「做一个有用的 AI 助手」是两件完全不同的事。在预训练之后，还需要第二阶段训练——基于人类反馈的强化学习（RLHF），才能让模型真正变成助手。

RLHF 释义

Reinforcement Learning from Human Feedback

= 基于人类反馈的强化学习

R — 强化	对好回答给予奖励，让模型趋向更优行为
L — 学习	通过 PPO 等算法持续调整模型参数
H — 人类	由真实标注员提供偏好判断，而非程序规则
F — 反馈	标注员对两条回答作出「哪个更好」的比较打分

两个阶段，两种目标
预训练（左）让模型从海量文本中学会语言规律，输出的是一个擅长续写的「文字接龙机器」； RLHF（右）让人类标注员对回答打分，训练奖励模型，再用强化学习把参数推向「人类偏好」的方向，才最终变成有用的助手。

预训练模型（续写风格）

经 RLHF 对齐后

RLHF 的局限

RLHF 让模型学会产生人类喜欢的回答，但「讨人喜欢」≠「真实正确」。这可能导致模型过度自信、回避不确定性，甚至「幻觉」（生成听起来合理但错误的内容）——这是当前 AI 对齐研究的核心挑战。

← 主页

第六步：温度参数与创造力

「温度」（Temperature）控制采样时的随机程度。低温让模型保守而确定，高温让输出更多样但可能离题。调节温度，是在确定性与创造性之间寻找平衡。

当前上下文：

温度 T = 1.0 平衡——多样但连贯

低温（保守）中温（平衡）高温（创意）

带温度的 Softmax

模型先输出每个词的原始分数（logit），再通过带温度的 Softmax 转换为概率：

$$P(w_i) = \frac{e^{z_i / T}}{\displaystyle\sum_j e^{z_j / T}}$$

• T → 0：最高分词概率趋近 1，其他趋近 0（贪婪解码）
• T = 1：标准概率分布
• T → ∞：所有词概率趋于相等（完全随机）

实践中的温度选择

T ≈ 0.3–0.7：代码生成、事实问答（高确定性）
T ≈ 0.7–1.0：对话助手、文字润色（平衡）
T ≈ 1.0–1.5：创意写作、头脑风暴（多样性）
T > 1.5：通常质量下降，较少使用

随机性来自温度，不来自模型本身
给定相同上下文，模型每次输出的 logit 完全相同。正是采样步骤中的随机性，导致了同一问题的不同回答。

← 主页

第七步：历史溯源——Transformer 的诞生

大语言模型的崛起并非一夜之间，而是几十年研究积累的结果。2017 年的一篇论文改变了 NLP 的历史，也间接改变了人类与 AI 的交互方式。

语言模型发展时间线

1980s 循环神经网络 RNN
顺序逐词处理，长文本记忆衰退，无法并行，训练极慢
1997 LSTM（长短期记忆网络）
Hochreiter & Schmidhuber，用门控结构缓解梯度消失，但仍是顺序处理
2015 Attention 机制引入
Bahdanau 等人首次将注意力用于机器翻译，允许模型关注输入的不同部分
2017 Transformer ——《Attention Is All You Need》
Vaswani 等 8 人（Google Brain），完全抛弃 RNN，纯注意力结构，并行高效——现代 LLM 的基石
2018 BERT（双向 Transformer）
Google，双向上下文理解，NLP 各项基准测试大幅突破
2019 GPT-2（OpenAI）
15 亿参数，生成质量惊艳学界，引发"AI 写作"的广泛讨论
2020 GPT-3
1750 亿参数，few-shot 学习能力令研究界震惊
2022 ChatGPT 破圈
RLHF 对齐 + 对话界面，5 天用户破百万，大众进入"LLM 时代"
2023+ 多模型并立
GPT-4、Claude、Gemini、文心一言、通义千问、Llama…进入生态繁荣期

从 RNN、LSTM、Attention、Transformer 到 LLM 的手绘发展历史插图 — 从顺序接力，到门控记忆、跨距关注、并行互联，再到规模涌现的 LLM。

2017：Transformer 的转折点

《Attention Is All You Need》提出：只用注意力机制完成语言建模，不再依赖 RNN。

并行训练
充分利用 GPU 长上下文
保留更多信息可扩展
催生涌现能力

从一篇论文到一个产业生态

8 位作者当时都在 Google Brain，之后分散到多个重要 AI 方向，说明 Transformer 不只是一个模型结构，也成为人才与创业生态的起点。

Shazeer → Character.AI Gomez → Cohere Kaiser → OpenAI Uszkoreit → Inceptive 其余仍在 Google DeepMind 等机构

涌现能力（Emergent Abilities）
模型扩展到足够大后，会突然获得小模型完全不具备的能力（如推理、算术），这种"量变引发质变"的现象至今仍是研究热点，机制尚不完全清楚。

← 主页

第八步：教育思辨——大语言模型走进课堂

理解了 LLM 的原理，再来思考它对教育的意义。作为未来的教师，不仅要会用，更要能引导学生在 AI 时代建立正确的认知与能力。

AI 进课堂，教师先问三件事的手绘插图 — 面对 AI 进课堂，教师要先追问理解、评价与协作方式。

Q1：LLM 真的「理解」语言吗？

LLM 学会的是：哪些词序列在海量文本中高频出现。它极为精妙地捕捉了语言的统计规律，能生成语义连贯的文本——但这是否等同于人类的「理解」？

LLM 没有身体感知、没有因果推理、没有持续记忆。它的「理解」是一种模式匹配，而非概念建构。在课堂上，帮助学生区分这两者，是培养 AI 素养的关键。

Q2：学生用 AI 完成作业，评价方式该如何演变？

AI 可以在秒级内完成绝大多数传统作业，但它无法替代真实情境中的创造、协作与判断。

教育评价的转向建议：从「结果正确」转向「过程可见」，从「标准答案」转向「论证与反思」，从「个人独立」转向「人机协作的批判性使用」。

Q3：如何培养学生与 AI 协作而非依赖 AI 的能力？

过度依赖 AI 会弱化学生的元认知能力——不知道自己不知道什么，无法判断 AI 答案的质量。

教学建议：先让学生独立思考并形成判断，再用 AI 辅助验证与扩展；教会学生对 AI 输出进行事实核查与批判性评估，而不是直接接受。

把 AI 当协作伙伴而非答案机器的手绘插图 — 让 AI 提供信息与灵感，让人类负责判断、修改与反思。

🔍 批判性审视 AI 输出

大语言模型会自信地说出错误的事实（「幻觉」）。教师应设计任务让学生主动核查 AI 的输出，而非将其视为权威。可以把「找出 AI 的错误」本身设计为学习活动。

🎓 设计 AI 参与型新任务

将 AI 作为协作伙伴而非答案机器：让学生提示词工程（设计 prompt）、让学生评价 AI 的多个回答、让学生在 AI 草稿基础上修改润色——这些都是新时代的核心技能。

📖 把 LLM 原理本身作为教学内容

理解「LLM 是概率性下一词预测器」，能从根本上帮助学生建立合理预期——知道它为什么会幻觉、为什么会重复、为什么不能可靠地推理数学。原理教育是最好的媒介素养。

给未来教师的提醒
最好的 AI 教育，不是教会学生怎么用 ChatGPT 完成作业，而是帮助学生理解：AI 是怎么工作的、它能做什么、它不能做什么、以及我们应该在它做不到的地方发展真正属于人类的能力。

完成，返回主页 →