0
点赞
收藏
分享

微信扫一扫

强化学习笔记-马尔可夫决策过程

颜娘娘的碎碎念 2022-03-23 阅读 63

前言

本文首先介绍了三个基本概念:马尔可夫性、马尔可夫过程和马尔可夫决策过程。接着引入贝尔曼方程,给出了值函数、状态行为函数、最优值函数、最优状态行为函数的推导公式以及它们之间的关系。

解释马尔可夫性、马尔可夫过程和马尔可夫决策过程。

马尔可夫性:当前状态可以决定未来,则认为该状态具有马尔可夫性。即如果某一状态信息蕴含了所有相关的历史信息,只要当前状态可知,所有的历史信息都不再需要。
可以用下面的状态转移概率公式来描述马尔可夫性:
在这里插入图片描述
可见状态St包含的信息等价于所有历史状态S1 , S2 , ……St包含的信息,状态St具有马尔可夫性。
例如,围棋未来的走法只和当前棋面有关,知道历史棋面信息对于当前该怎么走没有多大的帮助,则围棋的棋面是马尔可夫的。再如,直升机下一个时刻的位置信息也仅和当前时刻的位置和速度相关,因此直升机的位置也具有马尔可夫性。

马尔可夫过程:凡是具有马尔可夫性的随机过程都叫马尔可夫过程,又叫马尔可夫链。它是一个无记忆的随机过程,可以用一个元组<S,P>表示,其中S是有限数量的状态集,P是状态转移概率矩阵。

马尔可夫决策过程:马尔可夫决策过程(Markov Decision Process,MDP)是针对具有马尔可夫性的随机过程序贯地作出决策。即下一时间步状态s‘仅与当前当前状态s和动作a有关,而此刻之前的状态或动作不对其有任何影响。
过程:根据每个时间步观察到的状态s,从可用的行动集合中选用一个行动a,环境在a的作用下,转换至新状态s’。决策者根据新观察到的状态s‘,再做出新的决策,采取行为a’,依次反复地进行。

MDP五元组M=<S,A,P,R,γ>中,各个字母代表什么含义。

一个马尔可夫决策过程由一个五元组构成:M=<S,A,P,R,γ>。
(1)S代表环境的状态集合,指的是智能体所能获得的对决策有用的信息。A代表智能体的动作集合,它是智能体在当前强化学习任务中可以选择的动作集。
(2)A表示智能体的动作集合,是智能体在当前强化学习任务中可以选择的动作的动作集。
(3)PaSS’表示在当前状态s下(s∈S),经过动作a作用后(a∈A),会转移到的其他状态s’(s‘∈S)的概率。具体数学表达式如下:
在这里插入图片描述
某些时候,P与动作无关,可以写成:
在这里插入图片描述
(4)R是回报函数,表示在当前状态s(s∈S),采取动作a(a∈A)后,获得的回报,具有的数学表达式如下:
在这里插入图片描述
(5)γ是衰减系数,也叫折扣因子,γ∈[0,1]。使用折扣因子是为了在计算当前状态的累积回报时,将未来时刻的立即回报也考虑进来。这种做法符合人类的认知习惯,人类在追求眼前利益的同时,也会考虑具有不确定性的远期利益。

对于一个马尔可夫决策过程,奖赏值数量有限,请给出状态转移函数和回报函数。

状态转移函数PaSS’表示在当前状态s下(s∈S),经过动作a作用后(a∈A),会转移到的其他状态s’(s‘∈S)的概率。具体数学表达式如下:
在这里插入图片描述
某些时候,P与动作无关,可以写成:
在这里插入图片描述
回报函数R是回报函数,表示在当前状态s(s∈S),采取动作a(a∈A)后,获得的回报,具有的数学表达式如下:
在这里插入图片描述

扑克和围棋均属于MDP问题,两种游戏之间有什么本质区别?

对于扑克,博弈各方不知道其他博弈者的牌具体是什么,属于不完全信息博弈。
而对于围棋,博弈双方的所有信息都体现在棋盘上,属于完全信息博弈。

请写出贝尔曼期望方程和贝尔曼最优方程。

贝尔曼期望方程:
在这里插入图片描述
通过方程可以看出值函数由两部分组成,一是该状态的即时奖励期望,另一个是下一时刻状态的价值期望,可以根据下一时刻状态的概率分布得到其期望。

贝尔曼最优方程:
在这里插入图片描述
贝尔曼最优方程表达的是当前最优值函数(或最优行为值函数)和它后继最优值函数(或最优行为值函数)的关系,以及最优值函数和最优行为值函数之间的关系。
贝尔曼最优性方程是一个递归方程,可由动态规划(dynamic programming,DP)算法求解,通过求解该方程可以找到最优值函数和最优策略。
贝尔曼最优性方程是非线性的,没有固定的解决方案,只能通过一些迭代方法来解决,如价值迭代、策略迭代、Q学习、Sarsa等。

强化学习的目标是什么?什么是最优策略和最优值函数?

强化学习的目标是:找到最优策略Π,使得该策略下的累积回报期望最大。

最优策略:如果策略Π在所有状态下的期望回报都比策略 Π‘ 大,那么就说策略Π比Π’好。

最优值函数:所有策略中最优策略对应的值函数就是最优值函数。在这里插入图片描述

最优值函数和最优策略为什么等价?

每个策略对应着一个状态值函数,最优策略自然对应着最优状态值函数。

参考资料:

举报

相关推荐

0 条评论