0
点赞
收藏
分享

微信扫一扫

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读


代码 https://github.com/openai/lm-human-preferences

在train_policy.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习


看出 有一个​​ref_policy​​作为ground-truth

在train_reward.py文件

论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读_强化学习_02


看出 可以同时用于​​reward_model​​​自身的训练 和 用​​reward_model​​​对​​ref_policy​​打分


举报

相关推荐

0 条评论