0
点赞
收藏
分享

微信扫一扫

强化学习:reward function shaping —— 着陆器(lander)游戏中的奖励函数的设计

 

lander 游戏是强化学习问题中常使用的一个游戏场景,不同人对该问题都设置了不同的reward function,一直也没有对该游戏的各种reward function的设计做一个记录,正好看视频看到了一个该游戏的reward function的设计,这里mark下。

 

 

 

资料来源:

https://www.youtube.com/watch?v=0R3PnJEisqk

 

 

==============================================

 

 

 给出了第一种 reward function 设计,该种设计为复杂设计:

 

强化学习:reward function shaping   ——   着陆器(lander)游戏中的奖励函数的设计_资料来源

 

 

 

 

第二种设计,简单设计的 reward function:

 

强化学习:reward function shaping   ——   着陆器(lander)游戏中的奖励函数的设计_杂谈_02

 

举报

相关推荐

0 条评论