这本书的目的旨在整理不确定性条件下,决策判断相关的一系列知识及结果,就像普特曼在1994年写了一半关于马尔可夫决策过程的书,对马尔可夫决策过程理论进行详细整理。本书的一个主要目标是希望对一个连续决策问题的算法和理论进行完整整理,包括强化学习。从基本的统计决策理论出发,发展到强化学习问题和各种求解方法。这本书的结尾集中在模型和近似算法的当前最先进的科研成果。
本书目录
本书正文截图
微信扫一扫
这本书的目的旨在整理不确定性条件下,决策判断相关的一系列知识及结果,就像普特曼在1994年写了一半关于马尔可夫决策过程的书,对马尔可夫决策过程理论进行详细整理。本书的一个主要目标是希望对一个连续决策问题的算法和理论进行完整整理,包括强化学习。从基本的统计决策理论出发,发展到强化学习问题和各种求解方法。这本书的结尾集中在模型和近似算法的当前最先进的科研成果。
本书目录
本书正文截图
相关推荐