SoftMax函数介绍

简介

softmax函数是常用的输出层函数，常用来解决互斥标签的多分类问题。当然由于他是非线性函数，也可以作为隐藏层函数使用

公式

假设我们有若干输入[x1, x2, x3…xn]，对应的输出为[y1, y2, y3…yn]，对于SoftMax函数我们有
$y_i= \frac{e^{x_i}}{\sum_{k=0} e^{^{x_k}}}$

图像

在这里插入图片描述

反向传递公式推导

SoftMax函数比较特殊，他有多个输入和输出，并且每个输出与所有的输入都有关，所以这个函数输出对于多个输入都有一个偏导数，也就是SoftMax可以得到多个偏导数。对于SoftMax我们有两种情况

当输入坐标与输出坐标相对应时

$\frac{\partial y_i}{\partial {x_j}}=\frac{\partial y_i}{\partial {x_i}}$
$\frac{e^{x_i} \cdot (\sum_{k，i=j} e^{x_i})-e^{x_i} \cdot e^{x_i}}{(\sum_{k, i=j}e^{x_k})^2}$
$=\frac{e^{x_i}}{\sum_{k, i=j}e^{x_k}}-(\frac{e^{x_i}}{\sum_{k, i=j}e^{x_k}})^2$
$y_i(1-y_i)$

当输入坐标与输出坐标不对应时

$\frac{\partial y_i}{\partial {x_j}}= -\frac{e^{x_i} \cdot e^{x_j}}{(\sum_ke^{x_k})^2}$
$=-\frac{e^{x_i}}{\sum_{k, i!=j}e^{x_k}} \cdot \frac{e^{x_j}}{\sum_{k, i!=j}e^{x_k}}=-y_i \cdot y_j$

两种情况合并

$\frac{\partial y_i}{\partial x_j}=\frac{e^{x_i}}{\sum_{k, i=j}e^{x_k}}-(\frac{e^{x_i}}{\sum_{k, i=j}e^{x_k}})^2-\frac{e^{x_i}}{\sum_{k, i!=j}e^{x_k}} \cdot \frac{e^{x_j}}{\sum_{k, i!=j}e^{x_i}} \\ = \frac{e^{x_i}}{\sum_{k, i=j}e^{x_k}}-\frac{e^{x_i} \cdot e^{x_j}}{(\sum_{k}e^{x_k})^2}=y_i -y_i \cdot y_j$
故
$\frac{\partial y}{\partial x}=y \cdot (1-y)$

代码实现

class SoftMax():
    def __init__(self):
        pass
    def _softmax(self,x):
        x = x.T
        x = x - np.max(x, axis=0)
        y = np.exp(x) / np.sum(np.exp(x), axis=0)
        return y.T
    
    def forward(self,input):
        return self._softmax(input)
    
    def backward(self, input, grad_output):
        out = self.forward(input)
        return grad_output * out * (1 - out)

0 条评论