0
点赞
收藏
分享

微信扫一扫

从 Supervised Learning 到 Policy Gradients


http://karpathy.github.io/2016/05/31/rl/ 的翻译

从 Supervised Learning 到 Policy Gradients_强化学习


如图,对于有监督学习,深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有labeled ground-truth-label = 0

然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率

从 Supervised Learning 到 Policy Gradients_深度学习_02


如图,对于强化学习的 Policy Gradients,深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有reward / ground-truth-label = 0

然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率


举报

相关推荐

0 条评论