【阅读笔记】MCTS中select_action 和 select_child的区别

原创已于 2024-03-17 20:51:51 修改 · 476 阅读

9 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#机器学习

于 2024-03-17 20:50:47 首次发布

本文分析了MCTS中的select_action和select_child函数，解释了它们在决策过程中的区别，包括目的、选择标准和应用场景。

select_action 和 select_child都涉及到在蒙特卡洛树搜索（MCTS）中选择一个节点或动作。

MCTS通过结合树搜索和蒙特卡洛模拟来有效地探索和利用大型、复杂的搜索空间。在这个过程中，select_child 主要负责在树搜索阶段指导算法朝着最有希望的区域前进，而 select_action 则更多地关注在模拟结束后或实际决策时根据收集到的信息选择一个动作。通过结合这两种方法，MCTS能够在保持计算效率的同时实现高效的探索和利用。

def select_action(self, temperature):
    """
    Select action according to the visit count distribution and the temperature.
    """
    visit_counts = np.array([child.visit_count for child in self.children.values()])
    actions = [action for action in self.children.keys()]
    if temperature == 0:
        action = actions[np.argmax(visit_counts)]
    elif temperature == float("inf"):
        action = np.random.choice(actions)
    else:
        # See paper appendix Data Generation
        visit_count_distribution = visit_counts ** (1 / temperature)
        visit_count_distribution = visit_count_distribution / sum(visit_count_distribution)
        action = np.random.choice(actions, p=visit_count_distribution)

    return action

def select_child(self):
    """
    Select the child with the highest UCB score.
    """
    best_score = -np.inf
    best_action = -1
    best_child = None

    for action, child in self.children.items():
        score = ucb_score(self, child)
        if score > best_score:
            best_score = score
            best_action = action
            best_child = child

    return best_action, best_child

它们之间的主要区别：

目的不同：
- select_action 方法用于根据访问次数分布和温度参数来选择一个动作。这个动作可能是为了在当前节点下进行进一步的模拟或搜索。
- select_child 方法则是用于在当前节点的所有子节点中选择一个具有最高UCB（Upper Confidence Bound，上置信界）分数的子节点。UCB分数是一种在探索和利用之间找到平衡的启发式方法。
选择标准不同：
- select_action 的选择标准是基于访问次数和温度参数的概率分布。温度参数允许在探索（随机选择动作）和利用（选择访问次数最多的动作）之间进行权衡。
- select_child 的选择标准是基于UCB分数，该分数通常结合了节点的价值估计（Q值）和节点的访问次数来鼓励探索未充分访问的节点。
返回值不同：
- select_action 返回一个动作，这个动作是一个标识符或索引，用于指定在当前节点下应该采取的行动。
- select_child 返回一个动作和一个子节点对象。动作是选定的最佳子节点的标识符，而子节点对象本身包含了关于该节点的所有信息（如访问次数、价值估计等）。
使用场景不同：
- select_action 可能在MCTS的模拟阶段之外的任何时间点被调用，例如在实际环境中采取行动时，或者在搜索的某个阶段根据策略选择动作时。
- select_child 通常在MCTS的选择（Selection）阶段被调用，用于从当前节点的子节点中选择一个最有希望的节点进行进一步的搜索或扩展。