一个数学博士的深度学习方法（第 3 部分）-CFANZ编程社区

在上一篇文章一个数学博士的深度学习方法（第 2 部分）https://mp.weixin.qq.com/s/xloa-73fcA7XfawMVzQCaQ我们看到了神经元的数学模型和一种神经网络：多层感知器 (MLP)。我提到了激活函数这个术语，但我没有展示激活函数的类型，也没有解释网络如何在每一层找到最佳权重，所以让我们开始吧！

激活函数

激活函数负责将非线性行为引入神经网络，因此它们非常重要。

sigmoid

sigmoid 以一个实数值作为输入，输出一个介于 0 和 1 之间的值，因此 sigmoid 常用于在输出层生成概率。数学上，sigmoid函数写成如下

绘制 sigmoid 图的 Python 代码

Sigmoid 图

sigmoid 的导数可以通过商规则计算并写为

Sigmoid 导数

请注意，如果 S(x) 接近 0 或 1，则 S'(x) 接近于零。出于这个原因，sigmoid 不应该用于隐藏层，因为如果 S'(x) 接近于零，神经网络会非常缓慢地更新您的权重，因此网络无法正确“学习”。这个问题被称为梯度消失问题。

双曲正切

sigmoid 将一个实数值作为输入，并输出一个介于 -1 和 1 之间的值。

绘制正切双曲线图的 Python 代码

双曲正切图

双曲正切与 sigmoid 函数有关。注意

归一化指数函数

softmax函数，又称归一化指数函数。它是二分类函数sigmoid在多分类上的推广，目的是将多分类的结果以概率的形式展现出来。做过多分类任务的同学一定都知道这个函数

softmax 函数将包含 n 个元素的向量归一化为 n 个元素的概率分布。Softmax 用于输出层来预测输出是一类的概率。

整流线性单元 (ReLU)

被广泛使用是因为计算效率更高，这意味着网络可以更快地训练并在更短的时间内收敛。

绘制 ReLU 图的 Python 代码

ReLU 图

如果图层中的所有值都接收到负值，则此函数可能会出现问题，在这种情况下，会出现梯度消失问题。

还有其他激活函数，例如 Leaky ReLU、Parametric ReLU 和 Exponential Linear Unit。研究这些功能仍然是家庭作业。

损失函数

到目前为止，我们已经讨论了输入数据如何乘以权重并从层到层传递，直到网络产生一些结果，但是网络如何“学习”正确的权重？这些权重从何而来？他们住在哪里？他们吃什么？让我们来了解一下！

损失函数（也称为成本函数）只是一个衡量神经网络误差的函数。成本函数名称出现是因为我们总是希望降低成本和误差。

让我们考虑一个分类问题。

在分类问题中，我们将数据分为两部分：训练数据和测试数据。我们将使用训练数据来训练神经网络，并使用测试数据来衡量我们的网络在网络从未遇到过的数据上的性能。

在这种情况下，训练数据将具有一些用于预测类别（目标）的特征。例如，假设我们有关于温度和湿度的数据，并且我们有兴趣预测这是晴天还是雨天。在这种情况下，温度和湿度是特征（列或表格数据），0 级（晴天）或 1 级（下雨）将是目标。

所以我们将给出许多对 (temp_1, humid_1), (temp_2, humid_2), ..., (temp_k, humid_k)，对于每一对，我们的网络将计算我们已经知道的表达式并输出 0 或 1。我们必须将网络预测与我们拥有的实际值 0 和 1 进行比较，以便我们可以计算网络的误差。

正是这个错误用于更新权重。也就是说，损失函数允许网络“学习”权重。有两种类型的误差：局部误差是一次预测的误差，全局误差是局部误差的总和。

有几个损失函数，每一个都更适合每个问题，并且可能使用多个损失函数来评估性能。对于优化过程，将只使用一个损失函数。让我们了解一些损失函数。

平均绝对误差 (MAE)

这只是绝对误差的平均值。