0
点赞
收藏
分享

微信扫一扫

Policy Gradient with Baseline


Policy Gradient with Baseline

1.Baseline

Policy Gradient with Baseline_方差

Policy Gradient with Baseline_算法_02

Baseline与动作A无关。

Policy Gradient with Baseline_算法_03

因此我们可以把策略梯度改写。

Policy Gradient with Baseline_方差_04

采用Monte Carlo 近似期望。

Policy Gradient with Baseline_人工智能_05

Policy Gradient with Baseline_人工智能_06

然后使用随机梯度上升更新

Policy Gradient with Baseline_人工智能_08

一个好的baseline可以减少方差,加快收敛。

1.1 baseline的选择

Policy Gradient with Baseline_方差_09

b=0时是标准的policy gradient

Policy Gradient with Baseline_人工智能_10

第二种将b设为 ,因为的期望,与接近,且不依赖于

2.REINFORCE with Baseline

Policy Gradient with Baseline_深度学习_16

REINFORECE 采用作为的Mente Carlo 近似。

Policy Gradient with Baseline_人工智能_19

同时采用价值网络近似

Policy Gradient with Baseline_算法_21

2.1 网络结构

Policy Gradient with Baseline_算法_22

2.2 更新网络

Policy Gradient with Baseline_方差_23

记:

Policy Gradient with Baseline_方差_25

策略网络采用梯度上升更新参数。

Policy Gradient with Baseline_算法_26

价值网络采用SGD更新参数。

2.3 总结

Policy Gradient with Baseline_算法_27

Policy Gradient with Baseline_深度学习_28

再完成一句游戏后,观测的轨迹,可以获得多个

3. Advantage Actor-Critic (A2C)

Policy Gradient with Baseline_方差_30

与AC不同的是,AC采用近似,A2C 是采用近似

Policy Gradient with Baseline_深度学习_35

A2C同样基于baseline。

3.1 基本定理

Policy Gradient with Baseline_算法_36

这里证明了几个定理。

Policy Gradient with Baseline_方差_37

Policy Gradient with Baseline_方差_38


Policy Gradient with Baseline_算法_39

同样采用Mente Carlo近似

3.2 优势函数

Policy Gradient with Baseline_算法_42

我们将这部分称为 优势函数。

使用定理进行等式变形。

Policy Gradient with Baseline_人工智能_43

Policy Gradient with Baseline_人工智能_44

我们便可以进行随机梯度上升更新

对于价值网络,我们可以使用TD target更新。

Policy Gradient with Baseline_算法_46


Policy Gradient with Baseline_算法_47

3.3 解释说明

Policy Gradient with Baseline_人工智能_48


Policy Gradient with Baseline_方差_49


Policy Gradient with Baseline_深度学习_50

因此当优势函数值为正说明是好的,否则是坏的。

Policy Gradient with Baseline_方差_52

policy network 通过 选择 由环境产生,value network 计算 advantage function 用来更新policy network,使用TD算法更新value network。

4.REINFORCE versus A2C

Policy Gradient with Baseline_深度学习_56

两者网络结构完全相同。

Policy Gradient with Baseline_人工智能_57


Policy Gradient with Baseline_方差_58


Policy Gradient with Baseline_算法_59

A2C的TD target 可以使用 multi step 更新。

Policy Gradient with Baseline_算法_60

Policy Gradient with Baseline_算法_61

而REINFORECE 使用 计算

Policy Gradient with Baseline_方差_64

可以看出,REINFORCE是multi step TD target 的特例。

Policy Gradient with Baseline_方差_65


举报

相关推荐

0 条评论