IRGAN里的上面这个推导用了policy gradient based reinforcement learning (REINFORCE)算法,看了这个博客才看懂每步推导过程 http://karpathy.github.io/2016/05/31/rl/
上面是从karpathy的博客摘的另外θ可以理解为神经网络的参数
微信扫一扫
IRGAN里的上面这个推导用了policy gradient based reinforcement learning (REINFORCE)算法,看了这个博客才看懂每步推导过程 http://karpathy.github.io/2016/05/31/rl/
上面是从karpathy的博客摘的另外θ可以理解为神经网络的参数
相关推荐