【人工智能与深度学习】自然语言处理中的深度学习 综述 语言模型 神经语言模型 卷积语言模型 循环语言模型 Transformer语言模型 多头注意力机制 一些使用技巧 (适用于多头注意力机制和位置信息嵌入) 以及如何从语言模型中解码 技巧1: 利用层标准化来稳定训练 技巧2: 学习率预热(Warmup)和逆方差学习率调整 技巧3: 谨慎初始化参数 技巧4: 标签平滑化 以下是我们之前讨论的方法的结果. 在右面列出的"ppl"代表困惑度(perplexity, 交叉熵的指数形式). ppl越低越好. 关于transformer语言模型的重要知识点 自注意力机制是平方时间复杂度的(任意词可以访问到其他所有词), 我们需要限制输入序列的最大长度. Transformer有很好的扩展性 </