最优理论与技术--动态规划问题

最新推荐文章于 2026-06-25 15:27:30 发布

原创最新推荐文章于 2026-06-25 15:27:30 发布 · 1.7k 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

self-总结

动态规划是一种解决多阶段决策过程最优化的方法，由贝尔曼提出。它适用于具有无后效性的决策问题，通过阶段、状态、决策和状态转移方程来描述。动态规划的关键在于递推关系式和边界条件，通过逆序递推逐段确定最优策略。

动态规划问题：主要指多阶段决策过程。基本概念：阶段、状态、决策、策略、状态转移方程、指标函数和最优值函数..

动态规划（Dynamic Programming）是解决多阶段决策过程最优化的一种方法。美国数学家贝尔曼（R. E. Bellman）等人在50年代初提出了解决多阶段决策问题的“最优性原理” 。全局来讲是最优的决策:当每个阶段的决策确定以后，全部过程的决策就是这些阶段决策所组成的一个决策序列，这就是多阶段决策问题。

特别注意：
动态规划求解的多阶段决策问题的特点：

适合于用动态规划方法求解的只是一类特殊的多阶段决策问题，即具有“无后效性”的多阶段决策过程。所谓无后效性，又称马尔柯夫性，是指系统从某个阶段往后的发展，仅由本阶段所处的状态及其往后的决策所决定，与系统以前经历的状态和决策(历史)无关。

步骤：1、阶段（stage）：根据所需解决问题的特点，按照时间或空间顺序把整个过程划分为若干相互联系的阶段，以便按照一定次序求解。描述阶段的变量称为阶段变量，通常用字母k表示阶段变量。

2、状态（state）：状态表示各阶段开始所处的自然状况或客观条件，它既是某阶段过程演变的起点，又是前一阶段某种决策的结果。描述状态的变量称为状态变量，常用sk表示第k阶段的状态变量。状态变量sk的取值集合称为状态集合，第k阶段的状态集合记为Sk 。状态的选取应当满足无后效性：系统从某个阶段往后的发展演变，完全由系统本阶段所处的状态及决策所决定，与系统以前的状态及决策无关。也就是说，过去的历史只能通过当前的状态去影响未来的发展，当前的状态是过去历史的一个完整总结。只有具有无后效性的多阶段决策过程才适合于用动态规划方法求解。

3、决策（decision）当各阶段的状态选定以后，可以做出不同的决定（或选择）从而确定下一个阶段的状态，这种决定（或选择）称为决策。表述决策的变量称为决策变量，常用uk（sk）表示第k阶段当状态为sk时的决策变量。实际问题中，决策变量的取值往往限制在某一范围内，此范围称为允许决策集合，常用Dk（sk）表示第k阶段从状态sk出发的允许决策集合，显然uk（sk）∈Dk（sk）。

4、策略（policy）

当各个阶段的决策确定以后，各阶段的决策形成一个决策序列，称此决策序列为一个策略。使系统达到最优效果的策略称为最优策略。在n阶段决策过程中，从第k阶段到终止状态的过程，称为k后部子过程（或称为k子过程），k后部子过程相应的决策序列称为k后部子过程策略，简称子策略，记为p k,n（sk），即

P k,n（sk）=｛uk（sk），uk+1（sk+1），…，un（sn）｝

当k=1时，即由第一阶段某个状态出发做出的决策序列称为全过程策略，简称策略，记为p1，n（s1），即：

p1，n（s1）=｛u1（s1），u2（s2），…，un（sn）｝-----状态转移方程（state transfer equation）

•动态规划中，本阶段的状态往往是上一个阶段状态和上一个阶段决策作用的结果。设第k阶段状态为sk，做出的决策为uk（sk），则第k+1阶段的状态sk+1随之确定，他们之间的关系可以表示为：•sk+1=Tk（sk，uk）

•这种表示从第k阶段到第k+1阶段状态转移规律的方程称为状态转移方程，它反映了系统状态转移的递推规律。

• 例如例 6 中，上一阶段的决策就是下一阶段的状态，所以状态转移方程为：

sk+1= uk（sk）

5、指标函数和最优指标函数

• 衡量所选策略优劣的数量指标称为 指标函数 。它定义在全过程和所有后部子过程，常用 V k ， n 表示，即：

Vk，n=Vk，n（sk，uk，sk+1，…，sn+1）

• 当 k =1 时， V 1 ， n 表示初始状态为 s 1 ，采用策略 p 1 ， n 时的指标函数值。

V1，n=V1，n（s1，u1，s2，…，sn+1）

• 动态规划数学模型的指标函数应该具有 可分离性 ，并满足递推关系，即：

Vk，n（sk，uk，sk+1，…，sn+1）=Ψk[sk，uk，Vk+1，n（sk+1，…，sn+1）]

• 在阶段 k 状态为 s k ，决策为 u k （ s k ）时得到的反映第 k 阶段的数量指标 v k （ s k ， u k ）称为 k 阶段的指标函数 。

常见的指标函数形式有两种：

（1）任一后部子过程的指标函数是它所包含的各阶段指标的和，即：

Vk,n（sk，uk，…，sn+1）=

写成递推关系：

Vk,n（sk，uk，…，sn+1）= vk（sk，uk）+ Vk+1,n（sk+1，uk+1，…，sn+1）

（2）任一后部子过程的指标函数是它所包含的各阶段指标的积，即：

Vk,n（sk，uk，…，sn+1）=

写成递推关系：

Vk,n（sk，uk，…，sn+1）= vk（sk，uk）·Vk+1,n（sk+1，uk+1，…，sn+1）

结论：

1、动态规划方法的关键在于正确地写出基本的递推关系式和恰当的边界条件（简称基本方程）。要做到这一点，就必须将问题的过程分成几个相互联系的阶段，恰当的选取状态变量和决策变量及定义最优值函数，从而把一个大问题转化成一组同类型的子问题，然后逐个求解。即从边界条件开始，逐段递推寻优，在每一个子问题的求解中，均利用了它前面的子问题的最优化结果，依次进行，最后一个子问题所得的最优解，就是整个问题的最优解。

2、在多阶段决策过程中，动态规划方法是既把当前一段和未来一段分开，又把当前效益和未来效益结合起来考虑的一种最优化方法。因此，每阶段决策的选取是从全局来考虑的，与该阶段的最优选择答案一般是不同的。

3、在求整个问题的最优策略时，由于边界（初始或结果）状态是已知的，而每段的决策都是该段状态的函数，故最优策略便可通过逆序递推逐段变换得到，从而确定最优路线。

推荐论文：

Community Detection for Power Systems Network Aggregation Considering Renewable Variability

Raphael Araujo Sampaio, Gerson Couto Oliveira, Luiz Carlos da Costa Jr., Joaquim Dias Garcia

可变可再生能源（VRE）的日益普及给电力系统规划和运行带来了重大挑战。这些高度可变的源通常分布在网格中，因此，传输瓶颈的详细表示是近似的传输网络对VRE资源调度的影响的基础。短期和日前调度的细粒度时间尺度，考虑到网络约束，中期规划研究也是强制性的，再加上VRE的高度可变性，使得在考虑输电系统的同时，需要在随机优化模型中表示这些不确定性。这些要求增加了求解规划和运行模型的计算负担。提出了一种基于社区检测的网络表示方法，能够在多个虚拟现实场景中保持位置边际价格（LMP）的差异，并描述了一个实际的运营规划研究。将考虑聚合网络的最优期望费用解与全网络表示法进行了比较。这两种表示都被嵌入到一个基于随机对偶动态规划（SDDP）的操作模型中，以处理多阶段问题中的随机变量。

标签

#优化理论