Discrete VS Continuous Control
1.连续动作离散化
离散动作空间DQN,使用DQN近似,输出每个动作对应的价值。
策略网络则输出动作的概率分布。
当连续动作维度较小时,可以使用离散化。
动作的个数随纬度指数增长。
2.Deterministic Policy Gradient (DPG)
使用确定性策略网络近似 ,这里
价值网络的更新采用TD 算法。
改进 可以让critic 对action评分更高,因此可以对
的
价值网络在使用TD target时会出现bootstrapping,导致高估问题。
因此可以采用target network来计算,分别用target value network表示
,target policy network 表示
target network 的参数更新可以采用加权平均。
一些tricks
2.1 随机策略梯度和确定策略梯度两者比较
3.Stochastic Policy for Continuous Control
将每一维的动作的概率分布使用正态分布近似。
这样动作的概率分布就是对应正态分布的乘积。
这里我们采用两个neural network 近似和
这里我们就可以得到每维度的动作概率分布
3.1 Training Policy Network
取对数进行变形。
我们同时构造一个辅助网络表示上面的式子。
辅助网络输出的是一个标量,输入是和
通过反向传播,我们可以计算对于
的梯度。
因为 是
加上一个常数,那么显然
对于
的偏导等于
对其的偏导。
如果采用AC网络的话。
采用Mente Carlo 近似便可以更新策略网络。
然后用TD 算法更新value network。
如果采用REINFORCE的话,怎么通过一次轨迹计算,然后Mente Carlo 近似
3.2 Summary