0
点赞
收藏
分享

微信扫一扫

强化学习w3

脱下愤怒的小裤衩 2022-03-11 阅读 79
人工智能

w2 谢邀 很多没看懂

打算参考这个老师的博客

Jabes简书

1. 奖励:

变量的回馈信号,表明智能体在时间步t时刻的表现

训练目的为最大化奖励R_t.

★所有目标都可以由max(R_t)来描述

表示当前的最优————与价值对比

2. 历史

$$ H_t=O_1,R_1,A_1,...A_t-1,O_t,R_t $$包含从迭代开始到时间步t的所有观测变量

3. 状态

是从历史产生的映射状态,S_t=f(H_t)

需要考虑的有:环境状态(Enviroment State), 智能体状态(智能体的内部表示)(Agent State), 信息状态(包含历史中所有有用信息)(Information States)。

4. 策略policy

是环境状态到动作的映射,定义了智能体在特定时间的行为方式

是强化学习智能体的核心

确定性策略可以表示为:a=pai(s)

随机策略可以表示为:pai(a|s)=P[A_=a|S_t=s]

5. K臂赌博机


前面有一点没听到 笑啦呵呵

1. 价值函数:

通过值函数进行动作的选择

表示长远角度的最优,接下来所有可能状态的长期期望————与奖励进行对比

“简单地说,一个状态的价值是一个智能体从这个状态开始,对将来累积的总收益的期望。”

v(s)=E[G_t|S_t=s]

2.马尔可夫过程(MP)

3. 马尔可夫奖励过程(MRP)

4. 累积奖励(return)与折扣因子

长期累积奖励从当前时间步开始,直到最终状态的奖励r_n,得到未来累积奖励(Future Cumulative Reward)R_t=r_(t_1)+r_(t+2)+...+r_n

由于随机过程存在不确定性,一般用折扣未来累积奖励(Discounted Future Cumulative Reward)G_t=R_(t+1)+\lamda R_(t+2)+...+\lamda ^2R_n

折扣因子 ↑ \lamda [0,1] 距离越远,重要性越低,折扣因子越小。

★\lamda=1:称为没有折扣因子的状态 !!(注意不是=0

举报

相关推荐

0 条评论