【知识建设】交叉熵损失-CFANZ编程社区

这篇相当于看了知乎答主回答后的默写：

先默写下交叉熵损失的公式：

$logP(y|x)=-ylog{\hat{y}}-(1-y)log(1-\hat{y})$

其中 $y$ 是真实值， $\hat{y}$ 是预测值

如何推导

首先从sigmoid函数说起：

$g(s)=\frac{1}{1+e^{-s}}$
在这里插入图片描述
这个函数通常被用于神经网络的最后一层，作为输出前的最后一层，其中 $s$ 为倒数第二层的输出。因此 $g (s) = P (y ∣ x)$ ，其中 $x$ 为输入， $y$ 为输出

sigmoid函数的性质是： $s = 0$ , $g (s) = 0.5$ . $s > > 0$ , $g(s)\approx1$ . $s < < 0$ , $g(s)\approx0$ .

则 $\hat{y}=P(y=1|x)$ . $1-\hat{y}=P(y=0|x)$ .

利用最大似然估计将上述两个式子合并（并不太懂是怎么合并的，在我的认知中，最大似然估计，是在已知分布表达式的情况下，通过样本和真实值反推模型参数的方法）：

$P(y|x)=\hat{y}^y(1-\hat{y})^{1-y}$

同取对数得到：

$logP(y|x)=ylog\hat{y}+(1-y)log(1-\hat{y})$

对其取负得到：

$Loss=-ylog\hat{y}-(1-y)log(1-\hat{y})$

分析上述式子，当 $y = 1$ 时， $Loss=-log\hat{y}$ ，函数图像如下：
在这里插入图片描述
当 $\hat{y}\to1(==y)$ , $Loss\to0$
当 $\hat{y}\to0(!=y)$ , $Loss\to\infty$
且 $\hat{y}\to0$ 的过程更加陡峭，代表惩罚更重

同样的，当 $y = 0$ 时， $Loss=-log(1-\hat{y})$ ，函数图像如下：
在这里插入图片描述
当 $\hat{y}\to0(==y)$ , $Loss\to0$
当 $\hat{y}\to1(!=y)$ , $Loss\to\infty$
且 $\hat{y}\to1$ 的过程更加陡峭，代表惩罚更重

搞定！