0

点赞

收藏

分享

Discrete VS Continuous Control

绪风 2022-09-17 阅读 67

标签: 人工智能算法数据挖掘概率分布离散化虚拟化云计算

Discrete VS Continuous Control

1.连续动作离散化

Discrete VS Continuous Control_概率分布

离散动作空间DQN，使用DQN近似，输出每个动作对应的价值。

Discrete VS Continuous Control_数据挖掘_03

策略网络则输出动作的概率分布。

Discrete VS Continuous Control_算法_04

当连续动作维度较小时，可以使用离散化。

Discrete VS Continuous Control_算法_05

动作的个数随纬度指数增长。

2.Deterministic Policy Gradient (DPG)

Discrete VS Continuous Control_数据挖掘_06

Discrete VS Continuous Control_算法_07

使用确定性策略网络近似，这里

价值网络的更新采用TD 算法。

Discrete VS Continuous Control_算法_10

Discrete VS Continuous Control_离散化_11

Discrete VS Continuous Control_离散化_12

改进可以让critic 对action评分更高，因此可以对的

Discrete VS Continuous Control_离散化_16

Discrete VS Continuous Control_数据挖掘_17

价值网络在使用TD target时会出现bootstrapping，导致高估问题。

Discrete VS Continuous Control_数据挖掘_18

因此可以采用target network来计算，分别用target value network表示，target policy network 表示

Discrete VS Continuous Control_人工智能_22

Discrete VS Continuous Control_离散化_23

target network 的参数更新可以采用加权平均。

一些tricks

Discrete VS Continuous Control_算法_24

2.1 随机策略梯度和确定策略梯度两者比较

Discrete VS Continuous Control_人工智能_25

3.Stochastic Policy for Continuous Control

Discrete VS Continuous Control_算法_26

将每一维的动作的概率分布使用正态分布近似。

Discrete VS Continuous Control_数据挖掘_27

这样动作的概率分布就是对应正态分布的乘积。

Discrete VS Continuous Control_算法_28

这里我们采用两个neural network 近似和

Discrete VS Continuous Control_数据挖掘_31

Discrete VS Continuous Control_概率分布_32

这里我们就可以得到每维度的动作概率分布

3.1 Training Policy Network

Discrete VS Continuous Control_数据挖掘_34

取对数进行变形。

Discrete VS Continuous Control_概率分布_35

我们同时构造一个辅助网络表示上面的式子。

Discrete VS Continuous Control_数据挖掘_36

辅助网络输出的是一个标量，输入是和

Discrete VS Continuous Control_离散化_39

通过反向传播，我们可以计算对于的梯度。

Discrete VS Continuous Control_数据挖掘_42

Discrete VS Continuous Control_离散化_43

因为是加上一个常数，那么显然对于的偏导等于对其的偏导。

Discrete VS Continuous Control_算法_49

Discrete VS Continuous Control_算法_50

如果采用AC网络的话。

采用Mente Carlo 近似便可以更新策略网络。

然后用TD 算法更新value network。

Discrete VS Continuous Control_数据挖掘_52

如果采用REINFORCE的话，怎么通过一次轨迹计算，然后Mente Carlo 近似

3.2 Summary

Discrete VS Continuous Control_离散化_55

Discrete VS Continuous Control_数据挖掘_56

0 条评论

关注