从 Supervised Learning 到 Policy Gradients

Mezereon 2023-03-25 阅读 44

http://karpathy.github.io/2016/05/31/rl/ 的翻译

从 Supervised Learning 到 Policy Gradients_强化学习

如图，对于有监督学习，深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有labeled ground-truth-label = 0

然后，对类似image 提升predict-label=0 的概率，降低predict-label=1的概率

从 Supervised Learning 到 Policy Gradients_深度学习_02

如图，对于强化学习的 Policy Gradients，深度网络的输出结果是

30% 可能性 predict-label = 0

70% 可能性 predict-label = 1

有reward / ground-truth-label = 0

然后，对类似image 提升predict-label=0 的概率，降低predict-label=1的概率

0 条评论

关注