RL的原理-1-基本概念 • Linxii's Blog

状态（State）: 环境在某一时刻的描述，通常用一个向量表示。
状态空间（State Space）: 所有可能状态的集合，表示为 $S={s_{i}}$ 。
动作（Action）: 在每个状态下，智能体可以执行的操作。
动作空间（Action Space）: 所有可能动作的集合，表示为 $A(s_{i})={a_{j}}$ 。动作空间与状态是相关的，不同的状态可能有不同的可用动作。
状态转移（state transition）: 智能体执行某个动作，环境状态发生变化的过程。
forbidden area: 智能体进入这个区域后通常会导致负奖励或任务失败。
Tabular形式: 当状态空间和动作空间较小时，可以使用表格来存储状态-动作值函数（Q值）。
State transition Probability: 状态转移概率，表示在给定当前状态和动作的情况下，转移到下一个状态的概率，通常表示为 $P(s'|s,a)$ 。
策略（Policy）: 智能体在每个状态下选择动作的规则，通常表示为 $\pi(a|s)$ ，即在状态 $s$ 下选择动作 $a$ 的概率。（在实际coding时采用数组/矩阵进行存储）
奖励（Reward）: 智能体在执行动作后从环境中获得的反馈信号，通常表示为 $r(s,a)$ ，即在状态 $s$ 下执行动作 $a$ 后获得的奖励。
Trajestory: 智能体在环境中经历的一系列状态、动作和奖励的序列，通常表示为 $(s_0, a_0, r_1, s_1, a_1, r_2, ...)$ 。
回报(return): 智能体在某一时刻开始，未来所有奖励的累积和，通常表示为 $G_t = r_{t+1} + r_{t+2} + ... + r_{T}$ ，其中 $T$ 是终止时间步。return是针对整个trajestory而言的。
折扣回报(discounted return):考虑未来奖励的时间价值，通常表示为 $G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + ...$ ，其中 $\gamma$ 是折扣因子，取值范围为 $[0,1]$ 。当 $\gamma$ 接近1时，智能体更关注长期奖励；当 $\gamma$ 接近0时，智能体更关注短期奖励。
episode: 智能体从初始状态开始，经过一系列状态转移，直到达到终止状态的过程称为一个episode。
马尔可夫性质（markov property）: 表示当前状态包含了所有必要的信息，未来状态的转移只依赖于当前状态和动作，而与过去的状态和动作无关。
MDP(Markov Decision Process):三个集合（状态空间S，动作空间A，奖励函数R）和两个Probability Distribution(状态的probability distribution和奖励的probability distribution)以及策略π（a|s）,再加上memoryless property（与历史无关的特性）。