马尔可夫决策过程详解
1. 马尔可夫决策过程概述
马尔可夫决策过程(MDP)的目标是最大化预期的总累积奖励。在MDP中,系统状态在离散时间步上演变,每个后续状态仅依赖于前一个状态,这体现了马尔可夫性质。可以用图表来描述MDP,蓝色圆圈代表系统在离散时间步的状态 $S_t$,它们通过表示因果关系的箭头相连,每个蓝色圆圈只有一个箭头从前一个蓝色圆圈进入;绿色圆圈表示智能体采取的动作 $A_t$,向上的箭头表示智能体采取动作 $A_t$ 后获得的奖励 $R_t$。
2. 决策策略
为了实现最大化预期总奖励的目标,需要定义“策略”。策略 $\pi(a|s)$ 是一个将当前状态 $S_t = s$ 转换为动作 $A_t = a$ 的函数,它将状态空间映射到动作空间。
- 确定性策略 :当策略函数是其参数 $S_t$ 的常规函数时,输出 $A_t$ 是一个单一的数值。例如,若策略函数为 $\pi(S_t) = 0.5S_t$,对于 $S_t$ 的每个可能值,都有一个确定的动作。这种策略被称为确定性策略。在确定性策略下,若强化学习智能体多次处于相同的状态 $S_t$,每次都会采取相同的动作,其动作仅取决于当前状态,与之前的历史无关,这与系统动态的马尔可夫性质一致。并且可以证明,对于马尔可夫决策过程,总是存在一个最优的确定性策略。
- 随机策略 :随机策略中,$\pi(a|s)$ 描述的是一个概率分布而非函数。例如,假设有两个动作 $a_0$ 和 $a_1$,随机策略可以由逻辑函数给出:$\pi_0 := \pi(a = a_0|s) = \sigma(\theta^T s) = \frac{1}
超级会员免费看
订阅专栏 解锁全文

157

被折叠的 条评论
为什么被折叠?



