强化学习——基本概念(一)

基本概念

1 状态(state)

描述物体当前状态,可以是一个向量,所有状态组成状态空间S={si}i=1nS=\{s_i\}_{i=1}^n

2 动作(action)

物体在当前状态下可以采取的动作就是动作空间,动作空间与当前状态有关A(si)={ai}i=15A(s_i)=\{a_i\}_{i=1}^5

3 状态转移(state transition)

当前状态经过某个动作后就会转移到下个状态,下个状态通常是不确定的,与当前状态和动作相关。通常使用条件概率描述所有的转移p(si+1si,ai)p(s_{i+1}|s_i,a_i)

4 策略(policy)

当前状态下采取哪个动作称为策略,策略通常是随机的用概略表示,π(aisi)\pi(a_i|s_i)

5 奖励(reword)

当物体采取一定动作后,会有一个奖励,或正或负。注意的是奖励与下一个状态无关只与当前状态和采取的动作有关可以用条件概率表示p(risi,ai)p(r_i|s_i,a_i)

6 轨迹(trajectory)、章节(episode)和总奖励(return)

物体经过一系列决策使状态发生变化形成的包括状态,动作,奖励的链条。s1r1a1s2r2a2s3s_1\xrightarrow[r_1]{a_1}s_2\xrightarrow[r_2]{a_2}s_3。有限的轨迹就是 episod。return 为r=r1+r2r=r_1+r_2

7 折扣(discount)

轨迹通常是无限长的,这会导致 return 发散,为了解决此问题在每个奖励前乘折扣率r=γr1+γ2r2+γ3r3+r=\gamma*r_1+\gamma^2*r_2+\gamma^3*r_3+\cdots。当γ\gamma较小时更关注最近的事情,较大时关注更远的事情。

8 马尔可夫决策过程(Markov decision process)

在 MDP 中重新讲以上概念。MDP 包括 Markov property,它是一种无记忆的属性p(si+1si,ai,si1,ai1)=p(si+1si,ai)p(s_{i+1}|s_i,a_i,s_{i-1},a_{i-1})=p(s_{i+1}|s_i,a_i)p(risi,ai,si1,ai1)=p(risi,ai)p(r_{i}|s_i,a_i,s_{i-1},a_{i-1})=p(r_{i}|s_i,a_i)。还有决策 decision π(aisi)\pi(a_i|s_i),以及process 包括状态,动作空间S={si}i=1nS=\{s_i\}_{i=1}^nA(si)={ai}i=15A(s_i)=\{a_i\}_{i=1}^5和状态转移,奖励概率p(si+1si,ai)p(s_{i+1}|s_i,a_i)p(risi,ai)p(r_i|s_i,a_i)。当决策决定后 MDP 就变成 MP。