http://karpathy.github.io/2016/05/31/rl/ 的翻译
如图,对于有监督学习,深度网络的输出结果是
30% 可能性 predict-label = 0
70% 可能性 predict-label = 1
有labeled ground-truth-label = 0
然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率
如图,对于强化学习的 Policy Gradients,深度网络的输出结果是
30% 可能性 predict-label = 0
70% 可能性 predict-label = 1
有reward / ground-truth-label = 0
然后,对类似image 提升predict-label=0 的概率,降低predict-label=1的概率