29、马尔可夫决策过程详解

原创于 2025-09-07 10:33:13 发布 · 101 阅读

0 GEO检测

标签

#马尔可夫决策过程 #MDP #强化学习

金融机器学习：从理论到实践专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

马尔可夫决策过程详解

1. 马尔可夫决策过程概述

马尔可夫决策过程（MDP）的目标是最大化预期的总累积奖励。在MDP中，系统状态在离散时间步上演变，每个后续状态仅依赖于前一个状态，这体现了马尔可夫性质。可以用图表来描述MDP，蓝色圆圈代表系统在离散时间步的状态 $S_t$，它们通过表示因果关系的箭头相连，每个蓝色圆圈只有一个箭头从前一个蓝色圆圈进入；绿色圆圈表示智能体采取的动作 $A_t$，向上的箭头表示智能体采取动作 $A_t$ 后获得的奖励 $R_t$。

2. 决策策略

为了实现最大化预期总奖励的目标，需要定义“策略”。策略 $\pi(a|s)$ 是一个将当前状态 $S_t = s$ 转换为动作 $A_t = a$ 的函数，它将状态空间映射到动作空间。
- 确定性策略 ：当策略函数是其参数 $S_t$ 的常规函数时，输出 $A_t$ 是一个单一的数值。例如，若策略函数为 $\pi(S_t) = 0.5S_t$，对于 $S_t$ 的每个可能值，都有一个确定的动作。这种策略被称为确定性策略。在确定性策略下，若强化学习智能体多次处于相同的状态 $S_t$，每次都会采取相同的动作，其动作仅取决于当前状态，与之前的历史无关，这与系统动态的马尔可夫性质一致。并且可以证明，对于马尔可夫决策过程，总是存在一个最优的确定性策略。
- 随机策略 ：随机策略中，$\pi(a|s)$ 描述的是一个概率分布而非函数。例如，假设有两个动作 $a_0$ 和 $a_1$，随机策略可以由逻辑函数给出：$\pi_0 := \pi(a = a_0|s) = \sigma(\theta^T s) = \frac{1}