代码 https://github.com/openai/lm-human-preferences
在train_policy.py文件

看出 有一个ref_policy作为ground-truth
在train_reward.py文件

看出 可以同时用于reward_model自身的训练 和 用reward_model对ref_policy打分
论文《Proximal Policy Optimization Algorithms》即PPO算法的代码及解读
阅读 97
2023-02-04

看出 有一个ref_policy作为ground-truth

看出 可以同时用于reward_model自身的训练 和 用reward_model对ref_policy打分
相关推荐
精彩评论(0)