0
点赞
收藏
分享

微信扫一扫

IRGAN里REINFORCE算法 的推导过程 的理解方式


IRGAN里REINFORCE算法 的推导过程 的理解方式_神经网络

IRGAN里的上面这个推导用了policy gradient based reinforcement learning (REINFORCE)算法,看了这个博客才看懂每步推导过程 ​​http://karpathy.github.io/2016/05/31/rl/​​

IRGAN里REINFORCE算法 的推导过程 的理解方式_github_02


上面是从karpathy的博客摘的另外θ可以理解为神经网络的参数

IRGAN里REINFORCE算法 的推导过程 的理解方式_github_03


举报

相关推荐

0 条评论