深度学习数学基础：自动求导与反向传播

“如果不理解反向传播的数学本质，神经网络将永远只是一个黑盒。” —— 本专题旨在通过严密的数学推导与 C++ 算子级模拟，揭示深度学习背后的微积分与线性代数原理。

🪜 练习阶梯与评价标准

等级	难度目标	核心考察点	期望达成
● Level A	链式法则应用	计算图求导、简单激活函数导数	理解局部梯度概念
● Level B	矩阵求导推导	全连接层反向传播、Jacobian 矩阵	完成多层感知机的数学推导
● Level C	复杂算子分析	Softmax + CrossEntropy 联合求导, CNN 卷积求导	实现自定义算子的反向传播

🎯 跨学科考点矩阵 (Knowledge Matrix)

知识模块	数学核心	计算机落地 (AI/C++)	关联习题
导数与梯度	多元复合函数链式法则	自动求导系统 (Autograd)	练习 1
线性代数	矩阵求导, 逐元素运算 (Element-wise)	张量运算库封装	练习 2
概率与统计	极大似然估计 (MLE), 期望	损失函数 (CrossEntropy, MSE)	练习 3
数值优化	随机梯度下降 (SGD), 动量法	参数更新器 (Optimizer)	练习 4

📂 核心习题库

Level A：基础链式法则

练习 1：计算图求导 (Manual Autograd)

题目描述：考虑复合函数 $f(w, x, b) = \sigma(wx + b)$ ，其中 $\sigma(z) = \frac{1}{1 + e^{-z}}$ 为 Sigmoid 函数。已知 $w=2, x=3, b=-4$ 。

计算前向传播值 $f$ 。
利用链式法则计算 $\frac{\partial f}{\partial w}, \frac{\partial f}{\partial x}, \frac{\partial f}{\partial b}$ 。

Check Solution (Formal Proof)

思维链 (Thought Chain)：

建模：中间变量 $z = wx + b$ ， $f = \sigma(z)$ 。
局部梯度：
- $\frac{\partial f}{\partial z} = \sigma(z)(1 - \sigma(z))$ 。
- $\frac{\partial z}{\partial w} = x, \frac{\partial z}{\partial x} = w, \frac{\partial z}{\partial b} = 1$ 。
推导：
- $\frac{\partial f}{\partial w} = \frac{\partial f}{\partial z} \cdot x$ 。
- $\frac{\partial f}{\partial x} = \frac{\partial f}{\partial z} \cdot w$ 。
- $\frac{\partial f}{\partial b} = \frac{\partial f}{\partial z}$ 。
计算：
- $z = 2 \times 3 - 4 = 2$ 。
- $f = \sigma(2) = \frac{1}{1 + e^{-2}} \approx 0.88$ 。
- $\frac{\partial f}{\partial z} = 0.88 \times (1 - 0.88) = 0.1056$ 。
- $\frac{\partial f}{\partial w} = 0.1056 \times 3 = 0.3168$ 。

Level B：矩阵化反向传播

练习 2：全连接层 (Linear Layer) 的梯度推导

题目描述：设 $Y = XW + B$ ，其中 $X \in \mathbb{R}^{m \times n}, W \in \mathbb{R}^{n \times p}, B \in \mathbb{R}^{1 \times p}$ 。已知输出端的梯度 $\frac{\partial L}{\partial Y} \in \mathbb{R}^{m \times p}$ ，试求 $\frac{\partial L}{\partial W}$ 和 $\frac{\partial L}{\partial X}$ 。

Check Solution (Matrix Calculus)

思维链 (Thought Chain)：

维度检查： $\frac{\partial L}{\partial W}$ 必须与 $W$ 维度相同 $(n \times p)$ 。
推导：
- 根据矩阵微分公式 $dL = \text{Tr}((\frac{\partial L}{\partial Y})^T dY)$ 。
- $dY = X dW$ ，代入得 $dL = \text{Tr}((\frac{\partial L}{\partial Y})^T X dW) = \text{Tr}(X^T \frac{\partial L}{\partial Y} dW)$ 。
- 故 $\frac{\partial L}{\partial W} = X^T \frac{\partial L}{\partial Y}$ 。
同理：
- $\frac{\partial L}{\partial X} = \frac{\partial L}{\partial Y} W^T$ 。

C++ 模拟实现 (Eigen 风格)：

#include <iostream>
#include <vector>

// 模拟简单的全连接层
void backward(const std::vector<std::vector<double>>& X, 
              const std::vector<std::vector<double>>& gradY,
              std::vector<std::vector<double>>& gradW) {
    int m = X.size(), n = X[0].size(), p = gradY[0].size();
    // gradW = XT * gradY
    for (int i = 0; i < n; i++) {
        for (int j = 0; j < p; j++) {
            gradW[i][j] = 0;
            for (int k = 0; k < m; k++) {
                gradW[i][j] += X[k][i] * gradY[k][j];
            }
        }
    }
}

Level C：挑战——Softmax 求导

练习 3：Softmax + Cross-Entropy 梯度合并

题目描述：设 $a$ 是 Logits 向量， $y$ 是 Softmax 输出， $y_i = \frac{e^{a_i}}{\sum e^{a_j}}$ 。损失函数为 $L = -\sum t_k \ln y_k$ ，其中 $t$ 为 One-hot 标签。证明： $\frac{\partial L}{\partial a_i} = y_i - t_i$

Check Solution (Full Proof)

证明过程：

Softmax 自身偏导：
- 若 $i=j$ ： $\frac{\partial y_i}{\partial a_i} = y_i(1 - y_i)$ 。
- 若 $i \neq j$ ： $\frac{\partial y_j}{\partial a_i} = -y_j y_i$ 。
结合 Cross-Entropy： $\frac{\partial L}{\partial a_i} = \sum_k \frac{\partial L}{\partial y_k} \frac{\partial y_k}{\partial a_i}$ 其中 $\frac{\partial L}{\partial y_k} = -\frac{t_k}{y_k}$ 。
代入展开： $\frac{\partial L}{\partial a_i} = -\frac{t_i}{y_i} \cdot y_i(1 - y_i) + \sum_{k \neq i} -\frac{t_k}{y_k} \cdot (-y_k y_i)$ $\frac{\partial L}{\partial a_i} = -t_i(1 - y_i) + \sum_{k \neq i} t_k y_i = -t_i + t_i y_i + \sum_{k \neq i} t_k y_i$ 由于 $\sum_k t_k = 1$ （One-hot），故 $\sum_{k} t_k y_i = y_i \sum_k t_k = y_i$ 。
结论： $\frac{\partial L}{\partial a_i} = y_i - t_i$

工程意义：这个极其简洁的结果意味着在 C++ 实现反向传播时，我们只需将网络输出减去真实标签即可得到 Logits 层的梯度。

🏆 训练建议

手推一遍反向传播：不要完全依赖 PyTorch/TensorFlow。自己手推全连接、卷积和 Softmax 的梯度是成为架构师的必经之路。
注意数值稳定性：在实现 Softmax 时，务必减去向量中的最大值以防止 $e^{a_i}$ 溢出（Safe Softmax）。
维度对齐：矩阵求导最简单的检查方法就是看结果的维度是否与原变量一致。

🪜 练习阶梯与评价标准​

🎯 跨学科考点矩阵 (Knowledge Matrix)​

📂 核心习题库​

Level A：基础链式法则​

练习 1：计算图求导 (Manual Autograd)​

Level B：矩阵化反向传播​

练习 2：全连接层 (Linear Layer) 的梯度推导​

Level C：挑战——Softmax 求导​

练习 3：Softmax + Cross-Entropy 梯度合并​

🏆 训练建议​