智能微电网能源交易中的强化学习算法解析
1. 学习算法设计
在智能微电网能源交易中,为了让参与者能在不完全信息下找到最优策略,设计了多种学习算法。
1.1 FALA 最佳动作选择算法
FALA(Fixed Action Learning Automaton)最佳动作选择算法步骤如下:
- 初始化 :
- (p_1^{\ell}(k) = 1/K),其中 (K) 是动作的数量。
- 迭代过程 :
1. 对确定动作 (\ell = a_{\ell}(k)) 的效用进行归一化:
(\xi_t^{\ell}=\frac{[\hat{\xi} t^{\ell}(k) - \min_h \hat{\xi} {t - 1}^{\ell}(h)] +}{\max_m[\hat{\xi}_t^{\ell}(m) - \min_h \hat{\xi} {t - 1}^{\ell}(h)] + + 1})
这里,算子 ([\cdot] +) 定义为:若 (z > 0),则 ([z] + = z);否则 ([z] + = 0)。(\hat{\xi} t^{\ell}(k)) 取自 (7.8) 中的 (\hat{u}_t^j(k)) 或 (\hat{v}_t^i(k))。
2. 生成新的概率分布:
(p {t + 1}^{\ell}= p_t^{\ell}+ \gamma \xi_t^{\ell}\cdot (e(a_t^{\ell}
超级会员免费看
订阅专栏 解锁全文

67

被折叠的 条评论
为什么被折叠?



