Policy Gradient with Baseline
1.Baseline
Baseline与动作A无关。
因此我们可以把策略梯度改写。
采用Monte Carlo 近似期望。
然后使用随机梯度上升更新
一个好的baseline可以减少方差,加快收敛。
1.1 baseline的选择
b=0时是标准的policy gradient
第二种将b设为 ,因为
是
的期望,与
接近,且不依赖于
2.REINFORCE with Baseline
REINFORECE 采用作为
的Mente Carlo 近似。
同时采用价值网络近似
2.1 网络结构
2.2 更新网络
记:
策略网络采用梯度上升更新参数。
价值网络采用SGD更新参数。
2.3 总结
再完成一句游戏后,观测的轨迹,可以获得多个
3. Advantage Actor-Critic (A2C)
与AC不同的是,AC采用近似
,A2C 是采用
近似
A2C同样基于baseline。
3.1 基本定理
这里证明了几个定理。
同样采用Mente Carlo近似 和
3.2 优势函数
我们将这部分称为 优势函数。
使用定理进行等式变形。
我们便可以进行随机梯度上升更新
对于价值网络,我们可以使用TD target更新。
3.3 解释说明
因此当优势函数值为正说明是好的,否则是坏的。
policy network 通过 选择
由环境产生
,value network 计算 advantage function 用来更新policy network,使用TD算法更新value network。
4.REINFORCE versus A2C
两者网络结构完全相同。
A2C的TD target 可以使用 multi step 更新。
而REINFORECE 使用 计算
可以看出,REINFORCE是multi step TD target 的特例。