0
点赞
收藏
分享

微信扫一扫

[課程筆記] 機器學習2021(李弘毅) L33.概述增強式學習(五)

乐百川 2022-03-12 阅读 42

L5. No Reward: Learning from Demonstration

Motivation

  • 许多场景下,奖励难以被定义,像是:
    • 自驾车
  • 即使是人类設計奖励,若不够周全,机器会学错,而且人設計的奖励不一定是最好的

Imitation Learning

  •  记录专家的行为,让模型模仿

Isn't it supervised learning?

 

  • 模仿专家的行为,是一种 behavior cloning
  • 存在一些问题:
    • 专家的行为数据,无法覆盖所有情况 (E.g. 专家不会撞墙,机器因此无法学习到快撞墙时要如何修正)
    • 机器无法从专家的行为,了解真正需要学习的部份,当模型能力有限时可能会学错 (E.g. 影集中主角学中文时,看到老师有手势,以为那是中文的一部份)

Inverse Reinforcement Learning

  • Reinforcement Learning:
    • 透过奖励,学习最佳的 Actor
  • Inverse Reinforcement Learning:
    • 透过专家型为,学习 reward function
    • 接着再透过学习到的 reward function,训练最佳的 Actor

  • 学习 Reward Function
    • 让模型对专家行为给出高奖励,对机器行为给出低奖励
  • 训练 Actor
    • 使用上面学到的 Reward Function,用一般强化学习训练
  • 当 Actor 变强之后,需要再训练调整 Reward Function,重复不断循环

IRL vs. GAN

  • Reward function: 对比 GAN 中的 discriminator
  • Actor: 对比 GAN 中的 Generator

参考

  1. ​李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五)

举报

相关推荐

0 条评论