w2 谢邀 很多没看懂
打算参考这个老师的博客
Jabes简书
1. 奖励:
变量的回馈信号,表明智能体在时间步t时刻的表现
训练目的为最大化奖励R_t.
★所有目标都可以由max(R_t)来描述
表示当前的最优————与价值对比
2. 历史
$$ H_t=O_1,R_1,A_1,...A_t-1,O_t,R_t $$包含从迭代开始到时间步t的所有观测变量
3. 状态
是从历史产生的映射状态,S_t=f(H_t)
需要考虑的有:环境状态(Enviroment State), 智能体状态(智能体的内部表示)(Agent State), 信息状态(包含历史中所有有用信息)(Information States)。
4. 策略policy
是环境状态到动作的映射,定义了智能体在特定时间的行为方式
是强化学习智能体的核心
确定性策略可以表示为:a=pai(s)
随机策略可以表示为:pai(a|s)=P[A_=a|S_t=s]
5. K臂赌博机
前面有一点没听到 笑啦呵呵
1. 价值函数:
通过值函数进行动作的选择
表示长远角度的最优,接下来所有可能状态的长期期望————与奖励进行对比
“简单地说,一个状态的价值是一个智能体从这个状态开始,对将来累积的总收益的期望。”
v(s)=E[G_t|S_t=s]
2.马尔可夫过程(MP)
3. 马尔可夫奖励过程(MRP)
4. 累积奖励(return)与折扣因子
长期累积奖励从当前时间步开始,直到最终状态的奖励r_n,得到未来累积奖励(Future Cumulative Reward)R_t=r_(t_1)+r_(t+2)+...+r_n
由于随机过程存在不确定性,一般用折扣未来累积奖励(Discounted Future Cumulative Reward)G_t=R_(t+1)+\lamda R_(t+2)+...+\lamda ^2R_n
折扣因子 ↑ \lamda [0,1] 距离越远,重要性越低,折扣因子越小。
★\lamda=1:称为没有折扣因子的状态 !!(注意不是=0