第一步:神经网络的直觉——一个黑箱
神经网络接收多个输入($x_1, x_2, \ldots$),经过内部计算,产生多个输出($y_1, y_2, \ldots$)。
在还不清楚它如何计算之前,我们可以把它看作一个黑箱——只知道输入和输出,不知道内部发生了什么。
调整下方的滑块,改变输入和输出的神经元数量,观察结构的变化。
输入神经元
输出神经元
抽象表示
黑箱的比喻
就像一台复杂的机器——你投入原材料(输入),得到产品(输出),但暂时不需要知道机器内部的运作方式。
这里的 f 代表某种待揭示的计算函数,每个输出都是所有输入共同作用的结果。
就像一台复杂的机器——你投入原材料(输入),得到产品(输出),但暂时不需要知道机器内部的运作方式。
这里的 f 代表某种待揭示的计算函数,每个输出都是所有输入共同作用的结果。
第二步:揭开黑箱——加权求和
黑箱内部并不神秘!每个输出神经元的计算方式是:将所有输入分别乘以对应的权重 $w$,再加上一个偏置 $b$。
这种运算叫做加权求和,是神经网络最基础的计算单元。
输入层
输出层
连线代表权重 $w$
计算公式(输入 → 输出)
数值案例:计算第一个输出 $y_1$
权重 w 与偏置 b 的含义
• 权重 $w_{ji}$:表示输入 $x_i$ 对输出 $y_j$ 的影响程度;正数代表促进,负数代表抑制
• 偏置 $b_j$:一个独立的调节量,让输出有更大的灵活性
网络"学习"的过程,本质上就是不断调整这些 $w$ 和 $b$ 的值。
• 权重 $w_{ji}$:表示输入 $x_i$ 对输出 $y_j$ 的影响程度;正数代表促进,负数代表抑制
• 偏置 $b_j$:一个独立的调节量,让输出有更大的灵活性
网络"学习"的过程,本质上就是不断调整这些 $w$ 和 $b$ 的值。
注意这里的局限
无论 $w$ 和 $b$ 怎么取值,$y$ 始终是 $x$ 的线性函数。
这意味着它只能描述直线关系,无法表征现实中的复杂非线性规律。下一步将解决这个问题。
无论 $w$ 和 $b$ 怎么取值,$y$ 始终是 $x$ 的线性函数。
这意味着它只能描述直线关系,无法表征现实中的复杂非线性规律。下一步将解决这个问题。
第三步:引入隐藏层
为了突破线性的限制,我们在输入层和输出层之间插入一个隐藏层(Hidden Layer)。
计算分为两个阶段:先从输入计算隐藏层,再从隐藏层计算输出。调整滑块改变隐藏层的神经元数量。
输入层
隐藏层
输出层
第一阶段:输入层 → 隐藏层(权重 w,偏置 b)
第二阶段:隐藏层 → 输出层(权重 $\omega$,偏置 $\beta$)
隐藏层的作用
隐藏层引入了中间表示,使网络能够先将输入转化为某种中间特征,再由中间特征预测输出。
在实际应用中,隐藏层的每个神经元后通常还会加一个激活函数(如 ReLU),将线性运算转化为非线性,进一步提升表达能力。
隐藏层引入了中间表示,使网络能够先将输入转化为某种中间特征,再由中间特征预测输出。
在实际应用中,隐藏层的每个神经元后通常还会加一个激活函数(如 ReLU),将线性运算转化为非线性,进一步提升表达能力。
第四步:加深网络——深度神经网络
有了隐藏层,自然可以叠加多个隐藏层,每一层都对上一层的结果进行再加工。
层数越多,网络能够表征的规律就越复杂——这就是"深度"学习中"深度"的含义。
输入层
隐藏层
输出层
隐藏层数
1
参数总量
—
参数总量是如何计算的?
对于相邻两层(m 个神经元 → n 个神经元):
对于相邻两层(m 个神经元 → n 个神经元):
$\text{参数数} = m \times n\text{(权重)} + n\text{(偏置)}$
深度 vs. 宽度
• 更深(更多隐藏层):网络可以逐层提取越来越抽象的特征
• 更宽(每层更多神经元):每层能学习更多的并行特征
以图像识别为例,浅层学习边缘和颜色,中层学习形状,深层学习完整的物体概念。
• 更深(更多隐藏层):网络可以逐层提取越来越抽象的特征
• 更宽(每层更多神经元):每层能学习更多的并行特征
以图像识别为例,浅层学习边缘和颜色,中层学习形状,深层学习完整的物体概念。
第五步:从猫的视觉皮层到 AlexNet——神经网络如何"学会看"
第四步里我们用了"边缘 → 形状 → 物体"来理解深度网络的层级抽象。这个类比并非凭空想出来——它来自一段真实的科学发现,半个多世纪后被一群计算机研究者重新点燃,最终带来了 2012 年震惊世界的"ImageNet 时刻"。
从神经科学到深度学习:跨越半个世纪的接力
1959
Hubel & Wiesel 发现猫的视觉皮层
David Hubel 与 Torsten Wiesel 将微电极插入麻醉猫的视觉皮层,意外发现:某些神经元只对特定方向的光线边缘有强烈反应,对其他方向则几乎无反应。这是"边缘检测"的神经科学原型。
David Hubel 与 Torsten Wiesel 将微电极插入麻醉猫的视觉皮层,意外发现:某些神经元只对特定方向的光线边缘有强烈反应,对其他方向则几乎无反应。这是"边缘检测"的神经科学原型。
1962
1981
诺贝尔生理学或医学奖
Hubel & Wiesel 凭此项研究获奖,表彰他们揭示了大脑视觉信息处理的层级结构。
Hubel & Wiesel 凭此项研究获奖,表彰他们揭示了大脑视觉信息处理的层级结构。
1980
福岛邦彦 · Neocognitron
受 Hubel & Wiesel 启发,福岛邦彦设计了第一个层级卷积网络模型——"新认知机",正式将"简单细胞→复杂细胞"的层级思路转化为人工网络架构。
受 Hubel & Wiesel 启发,福岛邦彦设计了第一个层级卷积网络模型——"新认知机",正式将"简单细胞→复杂细胞"的层级思路转化为人工网络架构。
1998
Yann LeCun · LeNet-5
结合反向传播与卷积层,LeNet-5 成功识别手写邮政编码,被美国银行系统实际部署。这是 CNN 走向实用的第一步。
结合反向传播与卷积层,LeNet-5 成功识别手写邮政编码,被美国银行系统实际部署。这是 CNN 走向实用的第一步。
2012
AlexNet · ImageNet 时刻
Hinton 团队(Krizhevsky、Sutskever、Hinton)用 GPU 加速的深度 CNN,在 ImageNet 大赛中将 top-5 错误率从 26% 直接拉低到 16%。差距之悬殊令整个计算机视觉界震惊,深度学习时代就此全面开启。
→ AlexNet 论文原文
Hinton 团队(Krizhevsky、Sutskever、Hinton)用 GPU 加速的深度 CNN,在 ImageNet 大赛中将 top-5 错误率从 26% 直接拉低到 16%。差距之悬殊令整个计算机视觉界震惊,深度学习时代就此全面开启。
→ AlexNet 论文原文
🧠
大脑告诉我们的秘密
Hubel & Wiesel,1959
视觉皮层 V1 区的神经元分工明确:有的专门响应 ↗ 方向边缘,有的专门响应 ↘ 方向边缘;更深处的神经元则整合这些边缘,识别出角、圆弧……最终形成"物体"概念。
这正是深度网络每一层在做的事。
这正是深度网络每一层在做的事。
🔬
卷积层的生物学原型
从感受野到卷积核
Hubel & Wiesel 发现的"感受野"(神经元只关注局部视野)直接启发了 CNN 的卷积核设计:每个卷积核也只扫描图像的一个小区域,专门检测某类局部特征,再由下一层组合成更复杂的模式。
⚡
2012:数字改变了历史
ImageNet 大赛 top-5 错误率
26%
2011年最优
→
16%
AlexNet 2012
10 个百分点的飞跃,让整个学界意识到:深度学习不是小打小闹的改进,而是范式级别的跃迁。
给师范生的启示
Hubel & Wiesel 研究的是猫的大脑,却启发了半个世纪后的 AI 革命。很多重要的 AI 突破都来自跨学科的好奇心——神经科学、心理学、语言学都给过 AI 灵感。
作为未来的教师:鼓励学生保持跨界的好奇心,有时候你不知道自己在学的是什么,但它也许会在几十年后改变世界。
Hubel & Wiesel 研究的是猫的大脑,却启发了半个世纪后的 AI 革命。很多重要的 AI 突破都来自跨学科的好奇心——神经科学、心理学、语言学都给过 AI 灵感。
作为未来的教师:鼓励学生保持跨界的好奇心,有时候你不知道自己在学的是什么,但它也许会在几十年后改变世界。