Datawhale学习笔记-吃瓜笔记：神经网络-CFANZ编程社区

神经元模型

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。
神经网络中最基本的成分是神经元模型，即上述定义中的“简单单元”，在生物神经网络中，每个神经元与其他神经元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过了一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经元发送化学物质。

M-P神经元模型

在这里插入图片描述

M‑P神经元（一个用来模拟生物行为的数学模型）：接收n个输入(通常是来自其他神经
元)，并给各个输入赋予权重计算加权和，然后和自身特有的阈值 $\theta$ 进行比较（作减
法），最后经过激活函数（模拟“抑制”和“激活”）处理得到输出（通常是给下一个神经
元）

$y=f\left(\sum_{i=1}^{n} w_{i} x_{i}-\theta\right)=f\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}+b\right)$

单个M‑P神经元：感知机（ sgn作激活函数）、对数几率回归（sigmoid作激活函数）
多个M‑P神经元：神经网络

感知机

感知机模型：激活函数为sgn(阶跃函数)的神经元

$y=\operatorname{sgn}\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta\right)=\left\{\begin{array}{ll} 1, & \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta \geqslant 0 \\ 0, & \boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta<0 \end{array}\right.$

其中， $\in \mathbb{R^n}$ 为样本的特征向量，是感知机模型的输入， $w,\theta$ 是感知机模型的参数， $\in \mathbb{R^n}$ 为权重， $\theta$ 为阈值。

再从几何角度来说，给定一个线性可分的数据集 $T$ ，感知机的学习目标是求得能对数据
集 $T$ 中的正负样本完全正确划分的超平面，其中 $w^Tx-\theta$ 即为超平面方程。
n维空间的超平面（ $w^Tx+b=0$ ，其中 $\in \mathbb{R^n}$ ）：
超平面方程不唯一
法向量 $w$ 垂直于超平面
法向量 $w$ 和位移项确定一个唯一超平面
法向量 $w$ 指向的那一半空间为正空间，另一半为负空间

感知机学习策略：随机初始化 $w, b$ ，将全体训练样本代入模型找出误分类样本，假设此
时误分类样本集合为 $M\subseteq T$ ，对任意一个误分类样本来 $(x,y)\in M$ 说，当
$w^T- \theta \ge 0$ 时，模型输出值为 $\hat{y}=1$ ，样本真实标记为 $y = 0$ ；反之，当 $w^Tx-\theta<0$ 时，模型输出值为 $\hat{y}=0$ ，样本真实标记为 $y = 1$ 。综合两种情形可知，以下公式恒成立

$(\hat{y}-y)(w^Tx-\theta)\ge0$

所以，给定数据集T，其损失函数可以定义为

$L(\boldsymbol{w}, \theta)=\sum_{\boldsymbol{x} \in M}(\hat{y}-y)\left(\boldsymbol{w}^{\mathrm{T}} \boldsymbol{x}-\theta\right)$

显然，此损失函数是非负的。如果没有误分类点，损失函数值是0。而且，误分类点越
少，误分类点离超平面越近，损失函数值就越小。

感知机学习算法：当误分类样本集合 $M$ 固定时，那么可以求得损失函数的梯度 $L (w)$ 为

$\nabla_{\boldsymbol{w}} L(\boldsymbol{w})=\sum_{\boldsymbol{x}_{i} \in M}\left(\hat{y}_{i}-y_{i}\right) \boldsymbol{x}_{i}$

感知机的学习算法具体采用的是随机梯度下降法，也就是极小化过程中不是一次使 $M$ 中
所有误分类点的梯度下降，而是一次随机选取一个误分类点使其梯度下降。所以权重 $w$
的更新公式为

$\begin{array}{c} \boldsymbol{w} \leftarrow \boldsymbol{w}+\Delta \boldsymbol{w} \\ \\ \Delta \boldsymbol{w}=-\eta\left(\hat{y}_{i}-y_{i}\right) \boldsymbol{x}_{i}=\eta\left(y_{i}-\hat{y}_{i}\right) \boldsymbol{x}_{i} \end{array}$