

RL的原理-1-基本概念
强化学习(Reinforcement Learning, RL)中的一些基本概念,包括状态、动作、奖励、策略等。
-
状态(State): 环境在某一时刻的描述,通常用一个向量表示。
-
状态空间(State Space): 所有可能状态的集合,表示为。
-
动作(Action): 在每个状态下,智能体可以执行的操作。
-
动作空间(Action Space): 所有可能动作的集合,表示为。动作空间与状态是相关的,不同的状态可能有不同的可用动作。
-
状态转移(state transition): 智能体执行某个动作,环境状态发生变化的过程。
-
forbidden area: 智能体进入这个区域后通常会导致负奖励或任务失败。
-
Tabular形式: 当状态空间和动作空间较小时,可以使用表格来存储状态-动作值函数(Q值)。
-
State transition Probability: 状态转移概率,表示在给定当前状态和动作的情况下,转移到下一个状态的概率,通常表示为。
-
策略(Policy): 智能体在每个状态下选择动作的规则,通常表示为,即在状态下选择动作的概率。(在实际coding时采用数组/矩阵进行存储)
-
奖励(Reward): 智能体在执行动作后从环境中获得的反馈信号,通常表示为,即在状态下执行动作后获得的奖励。
-
Trajestory: 智能体在环境中经历的一系列状态、动作和奖励的序列,通常表示为。
-
回报(return): 智能体在某一时刻开始,未来所有奖励的累积和,通常表示为,其中是终止时间步。return是针对整个trajestory而言的。
-
折扣回报(discounted return):考虑未来奖励的时间价值,通常表示为,其中是折扣因子,取值范围为。当接近1时,智能体更关注长期奖励;当接近0时,智能体更关注短期奖励。
-
episode: 智能体从初始状态开始,经过一系列状态转移,直到达到终止状态的过程称为一个episode。
-
马尔可夫性质(markov property): 表示当前状态包含了所有必要的信息,未来状态的转移只依赖于当前状态和动作,而与过去的状态和动作无关。
-
MDP(Markov Decision Process):三个集合(状态空间S,动作空间A,奖励函数R)和两个Probability Distribution(状态的probability distribution和奖励的probability distribution)以及策略π(a|s),再加上memoryless property(与历史无关的特性)。