Linxii's Blog
RL的原理-1-基本概念Blur image
  • 状态(State): 环境在某一时刻的描述,通常用一个向量表示。

  • 状态空间(State Space): 所有可能状态的集合,表示为S=siS={s_{i}}

  • 动作(Action): 在每个状态下,智能体可以执行的操作。

  • 动作空间(Action Space): 所有可能动作的集合,表示为A(si)=ajA(s_{i})={a_{j}}。动作空间与状态是相关的,不同的状态可能有不同的可用动作。

  • 状态转移(state transition): 智能体执行某个动作,环境状态发生变化的过程。

  • forbidden area: 智能体进入这个区域后通常会导致负奖励或任务失败。

  • Tabular形式: 当状态空间和动作空间较小时,可以使用表格来存储状态-动作值函数(Q值)。

  • State transition Probability: 状态转移概率,表示在给定当前状态和动作的情况下,转移到下一个状态的概率,通常表示为P(ss,a)P(s'|s,a)

  • 策略(Policy): 智能体在每个状态下选择动作的规则,通常表示为π(as)\pi(a|s),即在状态ss下选择动作aa的概率。(在实际coding时采用数组/矩阵进行存储)

  • 奖励(Reward): 智能体在执行动作后从环境中获得的反馈信号,通常表示为r(s,a)r(s,a),即在状态ss下执行动作aa后获得的奖励。

  • Trajestory: 智能体在环境中经历的一系列状态、动作和奖励的序列,通常表示为(s0,a0,r1,s1,a1,r2,...)(s_0, a_0, r_1, s_1, a_1, r_2, ...)

  • 回报(return): 智能体在某一时刻开始,未来所有奖励的累积和,通常表示为Gt=rt+1+rt+2+...+rTG_t = r_{t+1} + r_{t+2} + ... + r_{T},其中TT是终止时间步。return是针对整个trajestory而言的。

  • 折扣回报(discounted return):考虑未来奖励的时间价值,通常表示为Gt=rt+1+γrt+2+γ2rt+3+...G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + ...,其中γ\gamma是折扣因子,取值范围为[0,1][0,1]。当γ\gamma接近1时,智能体更关注长期奖励;当γ\gamma接近0时,智能体更关注短期奖励。

  • episode: 智能体从初始状态开始,经过一系列状态转移,直到达到终止状态的过程称为一个episode。

  • 马尔可夫性质(markov property): 表示当前状态包含了所有必要的信息,未来状态的转移只依赖于当前状态和动作,而与过去的状态和动作无关。

  • MDP(Markov Decision Process):三个集合(状态空间S,动作空间A,奖励函数R)和两个Probability Distribution(状态的probability distribution和奖励的probability distribution)以及策略π(a|s),再加上memoryless property(与历史无关的特性)。

RL的原理-1-基本概念
https://linxii.top/blog/rl-learning-1-basic-concept
Author 林夕夕
Published at January 17, 2026
Comment seems to stuck. Try to refresh?✨