29、马尔可夫决策过程详解

马尔可夫决策过程详解

1. 马尔可夫决策过程概述

马尔可夫决策过程(MDP)的目标是最大化预期的总累积奖励。在MDP中,系统状态在离散时间步上演变,每个后续状态仅依赖于前一个状态,这体现了马尔可夫性质。可以用图表来描述MDP,蓝色圆圈代表系统在离散时间步的状态 $S_t$,它们通过表示因果关系的箭头相连,每个蓝色圆圈只有一个箭头从前一个蓝色圆圈进入;绿色圆圈表示智能体采取的动作 $A_t$,向上的箭头表示智能体采取动作 $A_t$ 后获得的奖励 $R_t$。

2. 决策策略

为了实现最大化预期总奖励的目标,需要定义“策略”。策略 $\pi(a|s)$ 是一个将当前状态 $S_t = s$ 转换为动作 $A_t = a$ 的函数,它将状态空间映射到动作空间。
- 确定性策略 :当策略函数是其参数 $S_t$ 的常规函数时,输出 $A_t$ 是一个单一的数值。例如,若策略函数为 $\pi(S_t) = 0.5S_t$,对于 $S_t$ 的每个可能值,都有一个确定的动作。这种策略被称为确定性策略。在确定性策略下,若强化学习智能体多次处于相同的状态 $S_t$,每次都会采取相同的动作,其动作仅取决于当前状态,与之前的历史无关,这与系统动态的马尔可夫性质一致。并且可以证明,对于马尔可夫决策过程,总是存在一个最优的确定性策略。
- 随机策略 :随机策略中,$\pi(a|s)$ 描述的是一个概率分布而非函数。例如,假设有两个动作 $a_0$ 和 $a_1$,随机策略可以由逻辑函数给出:$\pi_0 := \pi(a = a_0|s) = \sigma(\theta^T s) = \frac{1}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值