0

点赞

收藏

分享

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读

大柚子top 2023-02-04 阅读 92

标签: 强化学习 github 虚拟化云计算

代码 https://github.com/openai/lm-human-preferences

在train_policy.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习

看出有一个ref_policy作为ground-truth

在train_reward.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习_02

看出可以同时用于reward_model自身的训练和用reward_model对ref_policy打分

0 条评论

关注