0
点赞
收藏
分享

微信扫一扫

Value-Based RL


Value-Based RL

0.含折扣的回报(Discounted Return)

Value-Based RL_深度学习

等于从时刻开始的奖励之和,并且给未来的奖励一个折扣率

1.动作价值函数

Value-Based RL_特征向量_06

表示 的期望,该函数进行评估在策略 下状态执行动作的好坏。

Value-Based RL_深度学习_12

我们定义最优动作价值函数来表示在所有策略下的最大,通过这个函数我们可以找到最优的

2.DQN(Deep Q Network)

Value-Based RL_机器学习_16

为了近似这个函数,我们便使用价值网络(DQN)来近似该函数。

Value-Based RL_特征向量_18

DQN的输入就是状态,通过卷积层提取特征向量,在经过全连接层得到每个动作对应的价值。

Value-Based RL_特征向量_20

通过该网络,我们便可以觉得每次执行什么动作,然后得到外界的奖励 和新一轮的状态,从而不断地执行下去。

3.TD算法

用来训练价值网络地算法称为:Temporal Difference (TD) Learning,时间差分序列算法。

Value-Based RL_深度学习_24

Value-Based RL_特征向量_25

上图是一个TD算法的实例,用来估计两地距离。

把它应用到DQN中,就是如下图所示。

Value-Based RL_机器学习_26

可以看到,值由真实值和模型预测值组成。

Value-Based RL_人工智能_28

我们对回报Return的期望进行变形,便可以得到与TD算法类似的等式关系。

Value-Based RL_特征向量_29

Value-Based RL_特征向量_30

通过该算法,我们便可以求出TD的目标函数 ,计算损失,然后进行梯度下降训练网络。

4.总结

Value-Based RL_人工智能_33


举报

相关推荐

RL Problems

0 条评论