交叉熵损失(Cross Entropy)求导

Cross Entropy是分类问题中常见的一种损失函数，我们在之前的文章提到过二值交叉熵的证明和交叉熵的作用，下面解释一下交叉熵损失的求导。
首先一个模型的最后一层神经元的输出记为 $f_{0}...f_{i}$ ，
输出经过softmax激活之后记为 $p_{0}...p_{i}$ ，那么：
$p_{i} = \frac{e^{f_{i}}}{\sum_{k=0}^{C-1} e^{f_{k}}}$
类别的实际标签记为 $y_{0}...y_{i}$ ，那么交叉熵损失L为：
$-\sum_{i=0}^{C-1} y_{i}log^{p_{i}}$
上式中的 $l o g$ 是一种简写，为了后续的求导方便，一般我们认为 $l o g$ 的底是 $e$ ，即 $l o g$ 为 $l n$ 。
那么 $L$ 对第 $i$ 个神经元的输出 $f_{i}$ 求偏导 $\frac{\partial L}{\partial f_{i}}$ :
根据复合函数求导原则：
$\frac{\partial L}{\partial f_{i}} = \sum_{j=0}^{C-1} \frac{\partial L_{j}}{\partial p_{j}}\frac{\partial p_{j}}{\partial f_{i}}$
在这里需要说明，在softmax中我们使用了下标 $i$ 和 $k$ ，在交叉熵中使用了下标 $i$ ，但是这里的两个 $i$ 并不等价，因为softmax的分母中包含了每个神经元的输出 $f$ ，也就是激活后所有的 $p$ 对任意的 $f_{i}$ 求偏导都不为0，同时 $L$ 中又包含了所有的 $p$ ，所以为了避免重复我们需要为 $p$ 引入一个新的下标 $j$ ， $j$ 有 $0 . . . C - 1$ 这C种情况。
那么依次求导：

$\frac{\partial L_{j}}{\partial p_{j}}= \frac{\partial (-y_{j}log^{p_{j}})}{\partial (p_{j})}$

由于默认一般我们认为 $l o g$ 的底是 $e$ ，即 $l o g$ 为 $l n$ ，所以：

$\frac{\partial L_{j}}{\partial p_{j}}= \frac{\partial (-y_{j}log^{p_{j}})}{\partial (p_{j})} =-\frac{y_{j}}{p_{j}}$

接着要求 $\frac{\partial p_{j}}{\partial f_{i}}$ 的值，在这里可以发现，每一个 $p_{j}$ 中都包含 $f_{i}$ ，所以 $\frac{\partial p_{j}}{\partial f_{i}}$ 都不是0，但是 $j = i$ 和 $\neq i$ 的时候， $\frac{\partial p_{j}}{\partial f_{i}}$ 结果又不相同，所以这里需要分开讨论：

首先 $j = i$ 时：
$\frac{\partial p_{j}}{\partial f_{i}} = \frac{\partial p_{i}}{\partial f_{i}} = \frac{\partial \frac{e^{f_{i}}}{\sum_{k=0}^{C-1} e^{f_{k}}}}{\partial f_{i}}$
$\frac{ (e^{f_{i}})' \sum_{k=0}^{C-1} e^{f_{k}} - e^{f_{i}}(\sum_{k=0}^{C-1} e^{f_{k}})' }{(\sum_{k=0}^{C-1} e^{f_{k}})^{2}}$
$\frac{ e^{f_{i}}\sum_{k=0}^{C-1} e^{f_{k}} - (e^{f_{i}})^2 }{(\sum_{k=0}^{C-1} e^{f_{k}})^{2}}= \frac{ e^{f_{i}} }{\sum_{k=0}^{C-1} e^{f_{k}}} - (\frac{ e^{f_{i}} }{\sum_{k=0}^{C-1} e^{f_{k}}})^2$
$p_{i}-(p{i})^2 = p_{i}(1-p_{i})$
然后 $j\neq i$ 时：
$\frac{\partial p_{j}}{\partial f_{i}}= \frac{\partial \frac{e^{f_{j}}}{\sum_{k=0}^{C-1} e^{f_{k}}}}{\partial f_{i}}$
$\frac{ (e^{f_{j}})' \sum_{k=0}^{C-1} e^{f_{k}} - e^{f_{j}}(\sum_{k=0}^{C-1} e^{f_{k}})' }{(\sum_{k=0}^{C-1} e^{f_{k}})^{2}}$
$\frac{ - e^{f_{i}} e^{f_{j}} }{(\sum_{k=0}^{C-1} e^{f_{k}})^{2}} = - \frac{ e^{f_{i}} }{\sum_{k=0}^{C-1} e^{f_{k}}} \frac{ e^{f_{j}} }{\sum_{k=0}^{C-1} e^{f_{k}}}$
$p_{i}p_{j}$

对于最后的偏导数，需要把上述两个部分加起来：
$\frac{\partial L}{\partial f_{i}} = \sum_{j=i}^{C-1} \frac{\partial L_{j}}{\partial p_{j}}\frac{\partial p_{j}}{\partial f_{i}} + \sum_{j\neq i}^{C-1} \frac{\partial L_{j}}{\partial p_{j}}\frac{\partial p_{j}}{\partial f_{i}}$
$=-\frac{y_{i}}{p_{i}}p_{i}(1-p_{i}) + \sum_{j\neq i}^{C-1}-p_{i}p_{j}(-\frac{y_{j}}{p_{j}})$
$=-y_{i}(1-p_{i}) + \sum_{j\neq i}^{C-1}p_{i}y_{j}$
$=y_{i}p_{i}-y_{i} + \sum_{j\neq i}^{C-1}p_{i}y_{j}$

在上式中， $j\neq i$ 的情况中刚好缺了 $j = i$ ，所以可以继续改写为：
$=\sum_{j=0}^{C-1}p_{i}y_{j} - y_{i}$
$=p_{i}\sum_{j=0}^{C-1}y_{j} - y_{i}$
而 $\sum_{j=0}^{C-1}y_{j} = 1$ ，所以：
$=p_{i}\sum_{j=0}^{C-1}y_{j} - y_{i} = p_{i}-y_{i}$