L5. No Reward: Learning from Demonstration
Motivation
- 许多场景下,奖励难以被定义,像是:
- 自驾车
- 即使是人类設計奖励,若不够周全,机器会学错,而且人設計的奖励不一定是最好的
Imitation Learning
- 记录专家的行为,让模型模仿
Isn't it supervised learning?
- 模仿专家的行为,是一种 behavior cloning
- 存在一些问题:
- 专家的行为数据,无法覆盖所有情况 (E.g. 专家不会撞墙,机器因此无法学习到快撞墙时要如何修正)
- 机器无法从专家的行为,了解真正需要学习的部份,当模型能力有限时可能会学错 (E.g. 影集中主角学中文时,看到老师有手势,以为那是中文的一部份)
Inverse Reinforcement Learning
- Reinforcement Learning:
- 透过奖励,学习最佳的 Actor
- Inverse Reinforcement Learning:
- 透过专家型为,学习 reward function
- 接着再透过学习到的 reward function,训练最佳的 Actor
- 学习 Reward Function
- 让模型对专家行为给出高奖励,对机器行为给出低奖励
- 训练 Actor
- 使用上面学到的 Reward Function,用一般强化学习训练
- 当 Actor 变强之后,需要再训练调整 Reward Function,重复不断循环
IRL vs. GAN
- Reward function: 对比 GAN 中的 discriminator
- Actor: 对比 GAN 中的 Generator
参考
- 李弘毅老師 -【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (五)