64、顺序决策理论:从离散到连续状态空间的深入解析

顺序决策理论:从离散到连续状态空间的深入解析

1. 顺序博弈中的纳什均衡

在顺序博弈的场景下,纳什均衡的计算是一个关键问题。在阶段式模型中,可使用自底向上的技术来计算确定性和随机化的纳什均衡,不过这通常只能得到一个单一的纳什均衡。要表示所有的纳什均衡则极具挑战性,需要将博弈树分解为多个矩阵博弈,并找出每个矩阵博弈中的所有纳什均衡及其对应的成本。在计算过程中,应只向上传播可接受的纳什均衡及其成本,同时去除不可接受的纳什均衡。

对于玩家 P1 和 P2,可引入成本函数 L1 和 L2 来扩展相关的博弈模型。价值迭代方法也可类似地进行扩展,为每个状态和阶段的组合维护多个价值向量及其对应的动作,这些对应于可接受的纳什均衡。

然而,纳什均衡的非唯一性在顺序博弈中带来了极大的困难。通常,顺序博弈中的均衡数量比单阶段博弈要多得多,因此该概念在规划方法的设计中实用性有限,但在模拟复杂经济系统的可能结果方面可能更有用。

2. 引入自然因素

自然玩家可以很容易地引入到博弈中。例如,在零和博弈中引入自然因素后,就有了三个玩家:P1、P2 和自然。假设自然的选择具有概率不确定性,已知自然选择左分支的概率为 1/3,选择右分支的概率为 2/3。根据自然的选择,P1 和 P2 将进行特定的 2×2 矩阵博弈。

具体来说,自然选择左分支时,成本矩阵为:
[
\begin{bmatrix}
3 & -2 \
-6 & 3
\end{bmatrix}
]
自然选择右分支时,成本矩阵为:
[
\begin{bmatrix}
3 &

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值