0
点赞
收藏
分享

微信扫一扫

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha



我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。



关于强化学习,我专门花半年时间学习实践过,因此这里笔记只记录李老师的 outline 。我的强化学习资源仓库

本节内容综述


  1. 本节课是 B 站集合的最后一节课,由助教 ​​林义圣​​ 讲解。介绍些 RL 的新技术。
  2. 强化学习有许多难题:探索与开发间的平衡、采样效率。
  3. 首先介绍 Model-based RL 。其中讨论了 Alpha 系列(基于蒙特卡洛树搜索),以及 Dream to Control 。
  4. 接着,介绍了 Meta-RL 。
  5. 接下来讲一讲 Priors ,从之前学过的东西中抽取中有用的知识。
  6. Multi-agent RL 。


文章目录


本节内容综述小细节
  • Model-based RL
  • AlphaGo to AlphaZero, MuZero
  • Dream to Control
  • Automatic Domain Randomization
  • Meta-RL
  • Prior
  • Goal-agnostic Prior Policy
  • Learn from Experts
  • Multi-agent RL
  • MADDPG
  • Social Influence as Intrinsic Motivation
  • AlphaStar



小细节

Model-based RL

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_强化学习

从经验中学习一个 Model ,然后从 Model 上仿真学习。

AlphaGo to AlphaZero, MuZero

AlphaGo -> AlphaGo Zero -> AlphaZero -> MuZero

AlphaGo 可以理解为“很厉害的树搜索”,但是需要 pre-training 。

AlphaZero 不需要 pre-training ,在自我对弈时就引入蒙特卡洛树搜索。

MuZero 则可以自己学习环境模型。

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_人工智能_02

如上,有三个网络,分工为:


  • 把环境抽象为某一状态空间(h);
  • 如何在这状态空间进行状态转换(a);
  • 使用什么动作最优(f)。

Dream to Control

这篇文章则没有使用蒙特卡洛树搜索。

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_meta RL_03

完全去学习环境的建模,然后完全在自己想象的模型上去学习。

Automatic Domain Randomization

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_meta RL_04

OpenAI 为了训练机械手臂,在自己建模中,加入了大量干扰信号,以让其在真实世界能够完成任务。

Meta-RL

a t ∼ π θ ( s t ) ⟷ a t ∼ π θ ( a t − 1 , r t − 1 , s t ) a_{t} \sim \pi_{\theta}\left(s_{t}\right) \longleftrightarrow a_{t} \sim \pi_{\theta}\left(a_{t-1}, r_{t-1}, s_{t}\right) at∼πθ(st)⟷at∼πθ(at−1,rt−1,st)

如上,Meta-RL 还要输入过去的信息。

可以用 Meta-RL 学习 RL 的超参数、Loss Functions 、Exploration Strategies 。

Prior

To obtain effective and fast-adapting agents, the agent can rely upon previously distilled knowledge in the form of a prior distribution.

The following two papers propose two distinct ways:


  • Simultaneous learning of a goal-agnostic default policy
  • Learning a dense embedding space to represent a large set of expert behaviors

Goal-agnostic Prior Policy

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_MuZero_05

如上,两个网络,给第二个网络部分状态信息(比如没有目标位置,只有机器人身体姿势),然后其输出用 KL 与正常网络输出拉近。这样,第二个网络可以学到比较泛化的、与目标无关的特征。

Learn from Experts

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_强化学习_06

比如机器人要学习人的后空翻,那先给机器人看专家的动作,让其学习。此外,还有很多细节,具体需要见原文。

Multi-agent RL

这是一个很复杂的问题。

也有很多可研究的思路。

MADDPG

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_人工智能_07

如上,把别人的状态也输入到自己的状态中来。

Social Influence as Intrinsic Motivation

A mechanism for achieving coordination in multi-agent RL through rewarding agents for having causal Influence over other agents actions.


  • Actions that lead to bigger changes in other agents behavior are considered influential and are rewarded.
  • Influence is assessed using counterfactual reasoning.

in agent’s immediate reward is modified:

  • environmental reward + causal influence reward

c k = ∑ j = 0 , j ≠ k N D κ L [ p ( a j ∣ a k , s j ) ∥ ∑ a ˙ k p ( a j ∣ a ~ k , s j ) p ( a ~ k ∣ s j ) ] = ∑ j = 0 , j ≠ k N D κ L [ p ( a j ∣ a k , s j ) ∥ p ( a j ∣ s j ) ] \begin{aligned} c_{k} &=\sum_{j=0, j \neq k}^{N} D_{\kappa_{L}}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| \sum_{\dot{a}_{k}} p\left(a_{j} \mid \tilde{a}_{k}, s_{j}\right) p\left(\tilde{a}_{k} \mid s_{j}\right)\right] \\ &=\sum_{j=0, j \neq k}^{N} D_{\kappa L}\left[p\left(a_{j} \mid a_{k}, s_{j}\right) \| p\left(a_{j} \mid s_{j}\right)\right] \end{aligned} ck=j=0,j=k∑NDκL[p(aj∣ak,sj)∥a˙k∑p(aj∣a~k,sj)p(a~k∣sj)]=j=0,j=k∑NDκL[p(aj∣ak,sj)∥p(aj∣sj)]

AlphaStar

【李宏毅2020 ML/DL】P118 RL - Model-based, Meta, Multi-agent, Alpha_机器学习_08

如上,左部先从人类经验中学习。在最顶上的一条,进行自我对弈。

但是,它把进化中的历史“自我”也存储起来,用来与自己对弈,防止进化方向错误。

此外,还保存了一些过去打败自己的“自己”,然后也用于与自己对弈。



举报

相关推荐

0 条评论