巨细！Python爬虫详解-CFANZ编程社区

强化学习笔记

主要基于b站西湖大学赵世钰老师的【强化学习的数学原理】课程，个人觉得赵老师的课件深入浅出，很适合入门.

第一章强化学习基本概念
第二章贝尔曼方程
第三章贝尔曼最优方程

文章目录

强化学习笔记
一、最优策略
二、贝尔曼最优方程(BOE)
三、BOE的求解
- 1 求解方法
- 2 实例
四、BOE的最优性
参考资料

上一节讲了贝尔曼方程，这一节继续在贝尔曼方程的基础上讲贝尔曼最优方程，后面的策略迭代和值迭代算法都是根据贝尔曼最优方程来的.

一、最优策略

强化学习的最终目标是获得最优策略，所以有必要首先定义什么是最优策略。该定义基于状态值，比如，我们考虑两个给定策略 $\pi_1$ 和 $\pi_2$ 。若任一状态下 $\pi_1$ 的状态值大于等于 $\pi_2$ 的状态值，即：
$v_{\pi_1}(s)\geq v_{\pi_2}(s),\quad\forall s\in\mathcal{S},$
那么我们称 $\pi_1$ 是比 $\pi_2$ 更好的策略.最优策略就是所有可能的策略中最好的，定义如下：

截屏2024-03-19 16.34.52

如何得到这个策略呢？需要求解贝尔曼最优方程.

二、贝尔曼最优方程(BOE)

贝尔曼最优方程（Bellman Optimal Equation,BOE)，就是最优策略条件下的贝尔曼方程：
$\begin{aligned} v\left(s\right)& =\max_{\pi}\sum_{a}\pi(a|s)\left(\sum_{r}p(r|s,a)r+\gamma\sum_{s'}p(s'|s,a)v(s')\right),\quad\forall s\in\mathcal{S} \\ &=\max_{\pi}\sum_{a}\pi\left(a|s\right)q\left(s,a\right)\quad s\in{\mathcal S} \end{aligned}$
注意：

$p(r|s,a),p(s^{\prime}|s,a)$ 给定
$v(s),v(s^{\prime})$ 是需要计算的变量
$\pi$ 为优化变量

我们可以发现贝尔曼最优方程存在两个未知数 $v$ 和 $\pi$ ，一个方程怎么求解两个未知数呢？我们以下列式子说明，是可以求解的。
截屏2024-03-17 15.26.11

也就是说在求解时，可以固定一个变量，先求max的变量.

截屏2024-03-17 15.28.38

受上面例子的启发，考虑到 $\sum_a\pi(a|s)=1$ ，我们有：

$\begin{aligned} \upsilon(s)& \begin{aligned}=\max_{\color{red}{\pi}}\sum_{a}\pi(a|s)\left(\sum_{r}p(r|s,a)r+\gamma\sum_{s'}p(s'|s,a)v(s')\right),\end{aligned} \\ &=\max_{\color{red}{\pi}}\sum_{a}\color{red}{\pi(a|s)}q(s,a) \\ &=\max_{\color{red}{a\in\mathcal{A}(s)}}q(s,a) \end{aligned}$
我们通过先对 $\pi$ 变量求max，最后将问题转换为：
$v(s)=\max_{\color{red}{a\in\mathcal{A}(s)}}q(s,a)$ 而这个方程与 $\pi$ 无关了，只有一个变量，那就是 $v (s)$ （向量形式）,如何求解这个方程呢？下面介绍如何用迭代法进行求解.

三、BOE的求解

1 求解方法

我们考虑BOE的向量形式：
$v=f(v)=\max_{\pi}(r_\pi+\gamma P_\pi v)$ 而这个函数 $f$ 是一个压缩映射，压缩常数为 $\gamma$ ，证明见参考资料1的对应章节。什么是压缩映射？
定义(压缩映射)

$f$ 是压缩映射有什么用呢?这里需要先介绍一下压缩映射原理.

定理(压缩映射原理)

这也就是说，压缩映像原理给出了一个求不动点的方法，而BOE的 $f$ 是压缩映射，因此我们有

截屏2024-03-19 19.29.54

具体来看每一次迭代怎么算：

截屏2024-03-19 19.32.10

当我们计算每个状态 $s$ 时，我们由 $v_k(s')$ 可以计算得到 $q_k(s,a)$ ，然后再求最大就得到 $v_{k+1}(s)$ 了。值得注意的是上述方程右端取得最优值时，我们有：
$\pi_{k+1}(a|s)=\begin{cases} 1 & a=a^*,\\ 0 & a\neq a^*. \end{cases}$ 其中 $a^*=\arg\max\limits_a q_k(s,a)$ ，这个策略被称为greedy policy，也就是每次都选择动作值(q值)最大的动作.

Note:

值得注意的是，任意给 $v_0\in\operatorname{dom} f$ ，都能收敛到不动点.

2 实例

我们考虑如下这样一个问题，还是智能体走格子：

状态集： $s_1,s_2,s_3$ 其中 $s_2$ 是目标状态.
动作集： $a_l,a_0,a_r$ 分别代表向左、原地不动、向右.
奖励：进入 $s_2$ +1，走出格子-1。

截屏2024-03-19 19.45.20
回顾上一章讲动作值函数和状态值函数的关系，我们可以写出 $q (s, a)$ 与 $v (s)$ 的关系：
截屏2024-03-19 19.48.32
下面给定一个 $v (s)$ 的初始值，进行迭代：
截屏2024-03-19 19.53.21

显然，从直观上我们知道当前策略已经是最好的了。如果继续进行迭代，得到的策略不会再改变了，那么迭代算法怎么停止呢？停止准则可以通过如下公式进行判断：
$\|v_{k+1}-v_k\|\leq\epsilon$ 其中 $\epsilon$ 是一个给定的很小的值，也就是相邻两次 $v$ 相差很小时，我们认为 $v$ 已经逼近精确值了.

四、BOE的最优性

上面介绍怎么求解BOE的过程中，我们同时通过greedy policy的方法得到了最优策略:
$\pi^*= \arg\max\limits_\pi (r_\pi+\gamma P_\pi v^*)$ 其中 $v^*$ 是 $\pi^*$ 对应的状态值，那么求解贝尔曼最优方程得到的这个 $\pi^*$ 是不是最优策略呢？有如下定理进行保证.

截屏2024-03-19 20.08.54

这个定理保证了，我们通过求解BOE得到的策略是最优策略，证明见参考资料1的对应章节.

截屏2024-03-19 20.10.41

参考资料

Zhao, S. Mathematical Foundations of Reinforcement Learning. Springer Nature Press and Tsinghua University Press.
Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. MIT press, 2018.