0
点赞
收藏
分享

微信扫一扫

会话推荐相关知识学习

潇湘落木life 2022-04-18 阅读 77

文章目录


前言

读文章过程中所遇到的知识盲点

一.马尔科夫链

马尔科夫链为状态空间中经过从一个状态到另一个状态的转换随机过程,该过程要求具备“无记忆性 ”,即下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性 ”称作马尔可夫性质。

马尔科夫链认为过去所有的信息都被保存在了现在的状态下了 。比如这样一串数列 1 - 2 - 3 - 4 - 5 - 6,在马尔科夫链看来,6 的状态只与 5 有关,与前面的其它过程无关。

二.数学符号在论文中的格式

三.门控循环单元(GRU)

门控循环神经网络(gated recurrent neural network)的提出,是为了更好地捕捉时间序列中时间步距离较大的依赖关系。它通过可以学习的门来控制信息的流动。其中,门控循环单元(gated recurrent unit,GRU)是一种常用的门控循环神经网络。

1.Gate

这一块,通过一些额外的控制单元,使得我们在构造状态、隐藏状态时,从而达到更关注那一块(保留那一部分的信息,不关注那一块。

2.重置层与更新层

如下图所示,该图表示的是一层。
在这里插入图片描述
Rt:重置,Zt:更新,W是权重,b是bias

3.候选隐藏状态

在这里插入图片描述
Rt:是与Ht-1长度一样的向量,其值是0~1之间的。
⨀:按元素点乘
Ht-1代表的是前一时刻的状态,因为R的每个值是0~1之间的,如果0与对应的元素相乘的结果是0,1与对应的结果是它本身,这样就可以控制从t-1到t时刻的重置度。

4.隐状态

如果Zt = 1,那就相当于不更新;Zt = 1等于0时,代表完全不考虑过去的状态,而去考虑现在的状态。
在这里插入图片描述

5.总结

在这里插入图片描述
(1)Rt的作用在于更新现在的候选隐藏状态时,要用到多少过去隐藏状态的信息。
(2)要算真正隐藏状态信息时(Ht),需要用到当前新的与Xt相关的多少信息。

四.注意力机制

在这里插入图片描述
1.注意力机制
随意线索被称为query,就是你想要干什么。而所处环境被认为是一些键值对,不随意线索就是keys,会有对应的值。Key和value可以是一样的也可以是不一样的。
在这里插入图片描述
2.从古老的技术到新的技术
在这里插入图片描述

(1) (xi,yi)就是键值对;f(x)中的x是query;
(2) K是一个函数,可以认为是衡量x与xi之间距离的一个函数。
(3) A部分算出来其实就是一个权,B部分就表示,当给定一个x(query),会选择与x相近的xi,然后把输出xi所对应的yi。所以nadaraya-watson是非参的,不需要学任何东西。

下面来看看函数K的选择。
在这里插入图片描述
高斯核:高斯分布(正态分布)
exp作用: 映射到大于等于0的域中。
这样就是一个非学习的注意力机制,很早就有了。在前文所述基础上,还可以引入一个可以学习的参数w,这里的w是一个标量,可以拓展到多维。
在这里插入图片描述

举报

相关推荐

0 条评论