Softmax 推导

空城

2018-10-08

像一条咸鱼的学习让我不得不把这些记下来。

不过介个确实容易遗忘鸭😅。

前提概要

首先我们知道：

$\text { softmax } \left( f \left( \vec { x _ { i } } ; \vec { w } \right) \right) _ { j } = \frac { e ^ { f _ { j } } } { \sum _ { k = 1 } ^ { n } e ^ { f _ { k } } }$

其中：

$f \left( \vec { x _ { i } } ; \vec { w } \right) = \vec { w } \cdot \vec { x _ { i } }$ $f _ { j } \left( \vec { x _ { i } } ; \vec { w } \right) = \vec { w } _ { j } \cdot \vec { x _ { i } }$

我们现在将可能性转化为非标准化的对数概率，使用交叉熵损失：

$L _ { i } = - \log \left( \frac { e ^ { f _ { y _ { i } } } } { \sum _ { j } e ^ { f _ { j } } } \right)$

或者说等价于：

$L _ { i } = - f _ { y _ { i } } + \log \sum _ { j } e ^ { f _ { j } }$

给定图像 $x_{i}$ 由 $W$ 参数化，被分配为正确 $y_{i}$ 的概率：

$P \left( y _ { i } | x _ { i } ; w \right) = \frac { e ^ { f _ { y _ { i } } } } { \sum _ { k } e ^ { f _ { k } } } = \text { softmax } \left( f \left( \vec { x _ { i } } ; \vec { w } \right) \right) _ { j }$

这些指数计算结果可能会非常大，下面的表达式不会改变结果，但是会让结果数值更加稳定：

$\frac { e ^ { f _ { i } } } { \sum _ { j } e ^ { f _ { j } } } = \frac { C e ^ { f _ { i } } } { C \sum _ { j } e ^ { \ell _ { j } } } = \frac { e ^ { f _ { y _ { i } } + \log C } } { \sum _ { j } e ^ { f _ { j } + \log C } }$

一般，我们令 $\log C = - \max _ { j } f _ { j }$

# 原始
f = np.array([123, 456, 789]) # example with 3 classes and each having large scores
p = np.exp(f) / np.sum(np.exp(f)) # Bad: Numeric problem, potential blowup

# 现在
f -= np.max(f) # f becomes [-666, -333, 0]
p = np.exp(f) / np.sum(np.exp(f)) # safe to do, gives the correct answer

softmax 只有挤压功能，但它是一种相对常用的简写。

公式推导

MLE 最大似然估计的推导：

$\begin{aligned} \dot{x} &= \sigma(y-x) \ \dot{y} &= \rho x - y - xz \ \dot{z} &= -\beta z + xy \end{aligned}$ $\left.\begin{aligned}L ( w ) &= \prod _ { N } P \left( y _ { i } , x _ { i } | w \right)\newline &=\sum _ { i } ^ { N } \log \left( \frac { e ^ { f _ { y _ { i } } } } { \sum _ { k = 1 } ^ { n } e ^ { f _ { k } } } \right)\newline &=\sum _ { i } ^ { N } \left( f _ { y _ { i } } - \log \sum _ { k = 1 } ^ { n } e ^ { f _ { k } } \right) \end{aligned} \right.$

ps：向量求解 softmax 的 loss 时，直接用这里的第二步。

MLE 求解最大似然估计，等价于下面的损失函数求最小：

$\operatorname { loss } ( w ) = - L ( w ) = \sum _ { i } ^ { N } \left( - f _ { y _ { i } } + \log \sum _ { k = 1 } ^ { n } e ^ { f _ { k } } \right)$

重新定义损失函数，取平均，加上正则化：

$\operatorname { loss } ( w ) = \frac { 1 } { N } \sum _ { i } ^ { N } \left( - f _ { y _ { i } } + \log \sum _ { k = 1 } ^ { n } e ^ { f _ { k } } \right) + \lambda \| w \| ^ { 2 }$

对损失函数进行求导：

$if \space (u==y_{i}) \space => \space \frac { d L ( \vec { w } ) } { d w _ { u } ^ { ( v ) } } = \frac { 1 } { N } \sum _ { i } ^ { N } \left( - x _ { i } ^ { ( v ) } + \frac { x _ { i } ^ { ( v ) } e^{f_{i}} } { \sum _ { k = 1 } ^ { n } e ^ { f _ { k } } } \right) + 2 \lambda w _ { u } ^ { ( v ) }$ $if \space (u != y_{i}) \space => \space \frac { d L ( \vec { w } ) } { d w _ { u } ^ { ( v ) } } = \frac { 1 } { N } \sum _ { i } ^ { N } \left( 0 + \frac { x _ { i } ^ { ( v ) }e^{f_{i}} } { \sum _ { k = 1 } ^ { n } e ^ { f _ { k } } } \right) + 2 \lambda w _ { u } ^ { ( v ) }$