42、运动规划拓展与反馈运动规划

原创于 2025-07-13 10:59:00 发布 · 65 阅读

0 GEO检测

标签

#运动规划 # 反馈运动规划 # 帕累托最优

规划算法：智能系统的决策之魂专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

运动规划拓展与反馈运动规划

运动规划的扩展

在户外和行星导航应用中，传统清晰定义障碍物的方式不再适用。对于每片地形，更方便的做法是关联一个成本，以表示穿越该地形的估计难度，这有时被视为障碍物的“灰度”模型。这个模型可以很容易地融入成本项 ( l(q_k, u_k) ) 中，动作空间可以借鉴相关示例。Stentz 算法能为该问题生成最优导航计划，即使地形最初未知。同时，也有关于最优加权区域规划问题的理论界限和近似算法。

假设有如图所示的两个机器人，走廊空间仅够它们平移。每个机器人都想尽快到达底部，但水平走廊一次只能通过一个机器人。每个机器人在任何时刻要么开启（以最大速度移动），要么关闭（停止）。每个机器人都希望最小化关闭的总时间，此时似乎只有两种合理选择：
1. 机器人 A1 开启并直接移动到目标，机器人 A2 关闭足够长时间让 A1 通过，然后再移动到目标。
2. 相反情况，机器人 A2 开启，机器人 A1 等待。

考虑成本向量 ( (L_1, L_2) )，每个分量代表每个机器人的成本，成本可以用等待浪费的时间来衡量。这两种计划对应的成本向量分别为 ( (0, t_{off}) ) 和 ( (t_{off}, 0) )，这两个计划比其他任何计划都好或等价，具有这种性质的计划称为帕累托最优（或非支配）计划。例如，如果 A2 为 A1 通过多等待 1 秒，成本变为 ( (0, t_{off} + 1) )，显然比 ( (0, t_{off}) ) 差，该计划就不是帕累托最优。

更一般地，假设有 ( m ) 个机器人 ( A_1, \cdots, A_m )，( \gamma ) 表示为所有机器人提供路径和时间函数的运动计划。对于每个 ( A_