0
点赞
收藏
分享

微信扫一扫

【莫烦 强化学习】学习笔记(一)Q-learning

柠檬果然酸 2022-03-23 阅读 79
机器学习

 

 Q learning 算法:每次更新都用到了 Q 现实和 Q 估计。

参数含义: 

  •   \varepsilon-greedy 是用在决策上的一种策略, 比如 \varepsilon = 0.9 时, 就说明有90% 的情况我会按照 Q 表的最优值选择行为, 10% 的时间使用随机选行为。
  •  \alpha是学习率, 来决定这次的误差有多少是要被学习的, \alpha​​​​​​​是一个小于1 的数。
  •  \gamma是对未来 reward 的衰减值:

 \gamma=1:未来没有任何衰变的奖励, 也就是机器人能清清楚楚地看到之后所有步的全部价值;

 \gamma=(0~1):可以看出Q(s1) 是有关于之后所有的奖励, 但这些奖励正在衰减, 离 s1 越远的状态衰减越严重;

  \gamma=0:只能摸到眼前的 reward, 同样也就只在乎最近的大奖励.

举报

相关推荐

0 条评论