NLP-生成模型-2017：Transformer中的那些为什么-CFANZ编程社区

1、简单描述一下Transformer中的前馈神经网络？使用了什么激活函数？相关优缺点？

前馈神经网络采用了两个线性变换，激活函数为Relu，公式如下：
$FFN(x) = max(0, xW_1 + b_1) W_2 + b_2$
优点：

缺点：

ReLU的输出不是zero-centered；
ReLU在训练的时候很”脆弱”，一不小心有可能导致神经元”坏死”。举个例子：由于ReLU在x<0时梯度为0，这样就导致负的梯度在这个ReLU被置零，而且这个神经元有可能再也不会被任何数据激活。如果这个情况发生了，那么这个神经元之后的梯度就永远是0了，也就是ReLU神经元坏死了，不再对任何数据有所响应。实际操作中，如果你的learning rate 很大，那么很有可能你网络中的40%的神经元都坏死了。当然，如果你设置了一个合适的较小的learning rate，这个问题发生的情况其实也不会太频繁。，Dead ReLU Problem（神经元坏死现象）：某些神经元可能永远不会被激活，导致相应参数永远不会被更新（在负数部分，梯度为0）。产生这种现象的两个原因：参数初始化问题；learning rate太高导致在训练过程中参数更新太大。解决方法：采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。
ReLU不会对数据做幅度压缩，所以数据的幅度会随着模型层数的增加不断扩张。