0
点赞
收藏
分享

微信扫一扫

[課程筆記] 機器學習2021(李弘毅) L32.概述增強式學習(四)

booksmg2014 2022-03-12 阅读 71
深度学习

Reward Shaping

Sparse Reward

  • 许多场景中,大多数情况下并没有奖励,像是:
    • 围棋: 平常落子没有奖励,只有棋局结束时才有奖励(输/赢)
    • 机器人栓螺丝: 大多数动作都没有奖励,只有成功栓螺丝才有奖励
  • 人类可以想办法设计额外的奖励来帮助学习,类似短期目标

Reward Shaping

 

  • 游戏中的得分机制,只有杀死敌人或是被敌人杀死会影响分数
  • 这表示大部分的行为没有奖励
  • 可以设计短期目标,帮助机器学习:
    • 扣血: 负奖励 (更容易死亡)
    • 待在原地: 负奖励 (因为模型可能会避免移动,失去探索的机会)
    • 活着: 负奖励 (因为模型可能会移动但避免战斗,失去探索的机会)
  • 需要人类的领域知識介入,才能设计良好的奖励

Curiosity

 

  • 当模型,看到有意义的新发现时,会获得奖励
  • 有意义的新发现,是为了避免无用的新发现,让模型放弃探索

参考

  1. ​李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (四)

举报

相关推荐

0 条评论