第四章神经网络

1. 神经元模型

神经网络：由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实事件物体所做出的交互反应。

神经网络中最基础的成分是神经元模型（neuron）。下图是“M-P神经元模型”。
基本原理：神经元接收到来自n个其他神经元传递过来的输入信号，这些输入信号通过带权重的连接进行传递，神经元接收到的总输入值将于神经元的阈值进行比较，然后通过“激活函数”处理最后输出。
![[U6%T[%$F%K9_99)~28Y13.png]]

激活函数

激活函数常见的有：

阶跃函数
$\begin{cases} 1 & x \geq 0\\ 0 & x < 0 \end{cases}$
sigmoid函数
$\frac{1}{1+e^-x}$
理想中的激活函数是阶跃函数，但是该函数具有不连续、不光滑等性质，实际常用Sigmoid函数作为激活函数。

把多个神经元按一定的层次结构连接起来，就得到了神经网络。

2. 感知机与多层网络

感知机(Perceptron)由两层神经元组成，输入层接收外界输入信号后传递给输出层，输出层是M-P神经元，亦称“阈值逻辑单元”(threshold logic unit)。

感知机很容易实现逻辑与、或、非运算。

给定训练数据集，权重 $W_i$ 以及阈值 $\theta$ 可通过学习得到。 $\theta$ 可以看做一个固定输入为 -1.0 的“哑结点”（dummy node）所对应的连接权重，

感知机学习规则如下：

$W_i \leftarrow W_i + \triangle W_i$

$\triangle W_i = \eta(y - y)x_i$
其中 $\eta$ $\in$ (0, 1) 称为学习率(learning rate)。需注意，感知机只有输出层神经元进行激活函数处理，即只拥有一层功能神经元(functional neuron)，其学习能力非常有限。

可以证明：若两类模式是线性可分的，即存在一个线性超平面能将它们分开，则感知机的学习过程一定会收敛(converge)，否则感知机学习过程将会发生振荡(fluctuation)。

要解决非线性可分问题，需考虑使用多层功能神经元。更一般的，常见的神经网络是形如下图的层级结构，神经元之间不存在同层连接，也不存在跨层连接，称为“多层前馈神经网络”(multi-layer feedforward neural networks)。其中输入层神经元接收外界输入，隐层与输出层神经元(包含功能神经元)对信号进行加工，最终结果由输出层神经元输出。
神经网络学习的结果体现在连接权与阈值中。

3. 误差逆传播算法

3.1 模型定义及模型训练