文献阅读：RL算法Tree-GRPO

最新推荐文章于 2026-06-28 22:17:23 发布

原创最新推荐文章于 2026-06-28 22:17:23 发布 · 406 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#算法 #论文阅读 #强化学习

标题：TREE SEARCH FOR LLM AGENT REINFORCEMENT LEARNING

arxiv:2509.21240v3 | GitHub: https://github.com/AMAP-ML/Tree-GRPO

一、背景

（一）研究背景与痛点

在多轮 Agentic RL 中，LLM 需要通过“思考-动作-观测”的循环与环境交互来完成复杂任务。现有方法（如 GRPO）通常采用链式独立采样，面临两大核心痛点：

痛点1：LLM rollout 需要消耗大量资源。 现有分组 RL 方法为每个任务采样多条独立轨迹，存在大量冗余。在实际训练中，rollout 阶段占据了主要的训练时间，且多轮交互会产生高昂的工具调用成本（如搜索 API）。
痛点2：长时程的、多轮轨迹的监督信号稀疏。 现有方法大多只在最终结果给出一个标量奖励，整个多轮轨迹共享同一个信用分配。这导致模型难以识别具体哪个中间步骤导致了成功或失败，容易学习到“捷径”或发生训练崩溃。

（二）预备知识

多轮Agent 框架：Agent 在每一步 $t$ 基于上下文 $s_t$ 生成思考 $τt\tau_t$ 和动作 $αt\alpha_t$ ，环境返回观测 $o_t$ ，一个完整的T步轨迹表示为 $H={(τ0,α0,o0),(τ1,α1,o1),…,(τT−1,αT−1,oT−1)}\mathcal{H} = \big\{ (\tau_0, \alpha_0, o_0), (\tau_1, \alpha_1, o_1), \dots, (\tau_{T-1}, \alpha_{T-1}, o_{T-1}) \big\}$ ，可建模为马尔可夫决策过程 $M={S,A,P}\mathcal{M}=\{\mathcal{S}, \mathcal{A}, \mathcal{P}\}$ ，S表示状态，A表示动作空间 $τ_t, α_t)$ ，P表示转移,整个过程可基于LLM的策略参数 $π_θ$ 表述为：
$p_\theta\left(s_{0:T}, \tau_{0:T}, \alpha_{0:T}, o_{0:T}\right)= p(s_0) \prod_{t=0}^{T-1} [\pi_\theta(\tau_t \mid s_t) \pi_\theta(\alpha_t \mid s_t, \tau_t) P_{\text{env}}(o_{t+1} \mid \alpha_t)]$
Agentic RL：基于结果奖励 $R(⋅)R(\cdot)$ 优化策略 $πθ\pi_\theta$ ，最大化期望回报 $J(θ)=EH∼pθ[R(H)]J(\theta) = \mathbb{E}_{H \sim p_\theta}[R(H)]$ 。Tree-GRPO多采用基于组的RL算法，即采样一组 $N$ 个候选 rollout，计算组内相对优势 $A^\hat{A}$ 来指导优化。

二、方法

（一）Agent 步骤级树搜索采样

Tree-GRPO 将一个“思考-动作-观测”元组 $(τt,αt,ot)(\tau_t, \alpha_t, o_t)$ 作为一个树节点，采用“initialize-then-expand”方法。

初始化：对于给定问题 $x_i$ ，并行生成 $M$ 条独立的链式轨迹 $\{ \mathcal{H}^i \sim \pi_{\theta}(\cdot | x_i)\}^M$ ，作为 $M$ 棵初始树 $T\mathcal{T}$ 。
采样：从每棵树中随机采样 $N$ 个非叶子节点 $Pi={pi,j∈Ti}NP_i=\{p_{i,j} \in \mathcal{T_i}\}^N$ （即未输出 <answer> 的中间步骤），作为待扩展节点。
扩展：将选中节点 $P_{i,j}$ 从根节点到该节点的完整上下文 $,pi,jfather,pi,j}\mathcal{H}^i_{\lt t} = \{p_{i,j}^{root},\cdots,p_{i,j}^{father},p_{i,j}\}$ 和原始提示词 $x_i$ 作为前缀输入，继续生成后续响应 $Ynew={H≥ti∼πθ(⋅∣xi,H<ti)}NY_{new}= \{\mathcal{H}^i_{\ge t} \sim \pi_{\theta}(\cdot | x_i,\mathcal{H}^i_{\lt t})\}^N$ 。模型会持续进行多轮交互，直到输出 <answer> 或达到最大预算限制。生成结果作为新分支插入原树 $Ti←Ti∪Ynew.T_i \leftarrow T_i \cup Y_{\mathrm{new}}.$ 。此过程重复 $L$ 次。

预算计算：
设一条单链 Agent 轨迹的最大期望预算（包含 Token 和工具调用限制）为 $B$ 。

初始化 $M$ 棵树消耗： $\cdot B$ 。
扩展时，随机选取的中间节点期望深度是最大深度的一半，因此只需生成“后半段”轨迹，期望成本为 $B /2$ 。
总期望预算公式： $E[Btree]=M⋅B+L⋅N⋅B/2E[B_{tree}] = M \cdot B + L \cdot N \cdot B/2$ 。
注：在实际工程中， $B$ 是预设的硬性截断上限（如 max_tool_calls=3），系统通过扣除已有前缀的消耗来动态裁剪新分支，公式用于证明树搜索在期望意义下的高效性。

（二）树结构分组相对优势估计

传统轨迹级优势估计将整个多轮轨迹分配相同的信用： $A(\{(\tau_0, \alpha_0, o_0)...(\tau_T, \alpha_T, o_T)\})$ ，导致严重的信用分配稀疏问题。

Tree-GRPO 利用树状分叉，将叶子节点的结果奖励回传，在分叉点自然形成偏好学习信号。因为每个树内分支数量有限，可能导致基线估计不可靠，Tree-GRPO将两个层级的优势计算结合了起来：树内优势 ( $A^Intra−tree\hat{A}_{Intra-tree}$ )、树间优势 ( $A^Inter−tree\hat{A}_{Inter-tree}$ )。
具体公式（Eq. 6）：
$A^Intra/Inter−tree(Hi)=R(Hi)−mean({R(Hj)}jGIntra/Inter−tree(Ti))std({R(Hj)}jGIntra/Inter−tree(Ti)) \hat{A}_{Intra/Inter-tree}(H^i) = \frac{R(H^i) - mean(\{R(H^j)\}_j^{G_{Intra/Inter-tree}(T_i)})}{std(\{R(H^j)\}_j^{G_{Intra/Inter-tree}(T_i)})}$
最终优势融合（Eq. 7）：
$A^tree(Hi)=A^Intra−tree(Hi)+A^Inter−tree(Hi) \hat{A}_{tree}(H^i) = \hat{A}_{Intra-tree}(H^i) + \hat{A}_{Inter-tree}(H^i)$
Tree-GRPO 的最终目标函数（Eq. 8）在标准 PPO/GRPO 框架下引入该融合优势，并加入 KL 散度约束：
$JTree−GRPO(θ)=Ex∼D,H∼πold[1G∑i=1G1∣Hi∣∑t=1∣Hi∣min⁡(ri,t(θ)A^tree(Hi),clip(ri,t(θ),1−ϵ,1+ϵ)A^tree(Hi))−βDKL(πθ∣∣πref)] J_{Tree-GRPO}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, H \sim \pi_{old}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|H^i|} \sum_{t=1}^{|H^i|} \min(r_{i,t}(\theta)\hat{A}_{tree}(H^i), clip(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_{tree}(H^i)) - \beta D_{KL}(\pi_{\theta}||\pi_{ref}) \right]$

在这里插入图片描述

（三）隐式步骤级偏好学习

1. Assumption 3.1 (二值偏好设定)
对于树中任意中间节点 $x, H_{<t})$ ，假设其后续子轨迹分为两类：

获胜 $H≥twinH^{win}_{\ge t}$ ：最终获得正向奖励 (Reward = 1)。
失败 $H≥tlossH^{loss}_{\ge t}$ ：最终获得零奖励 (Reward = 0)。
且两者概率之和为 1。

路径的概率可定义为： $pθ(H≥twin)=1−pθ(H≥tloss)=∏τ=tTπθ(Hτwin∣x,H<τ)p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) = 1 - p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) = \prod_{\tau=t}^{T} \pi_\theta\left(\mathcal{H}_\tau^{\text{win}} \mid x, \mathcal{H}_{<\tau}\right)$
基于此设定，

step-level DPO 的梯度为：
$∇θJstep-DPO(θ)=E(x,H<t,H≥twin,H≥tloss)∼D[σ(βlog⁡pθ(H≥tloss)−βlog⁡pθ(H≥twin))⋅(∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss))]\nabla_{\theta} J_{\text{step-DPO}}(\theta) = \mathbb{E}_{(x, \mathcal{H}_{<t}, \mathcal{H}_{\geq t}^{\text{win}}, \mathcal{H}_{\geq t}^{\text{loss}}) \sim \mathcal{D}} \Bigg[ \sigma\left( \beta \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) - \beta \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{win}}\right) \right) \cdot \left( \nabla_{\theta} \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{win}}\right) - \nabla_{\theta} \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) \right) \Bigg]$
intra-tree GRPO 的梯度为：
$∇θJIntra-tree(θ)=pθ(H≥twin)⋅pθ(H≥tloss)⋅[∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss)]\nabla_{\theta} J_{\text{Intra-tree}}(\theta) = p_{\theta}(\mathcal{H}_{\geq t}^{\text{win}}) \cdot p_{\theta}(\mathcal{H}_{\geq t}^{\text{loss}}) \cdot \left[ \nabla_{\theta} \log p_{\theta}(\mathcal{H}_{\geq t}^{\text{win}}) - \nabla_{\theta} \log p_{\theta}(\mathcal{H}_{\geq t}^{\text{loss}}) \right]$

2. Proposition 3.1 (结构等价性)
在上述假设下，步骤级 DPO 与树内 GRPO 的梯度估计器具有完全相同的形式：
$\nabla_\theta J_{unified}(\theta) = \underbrace{w}_{\text{Weight}} \cdot \Big( \underbrace{\nabla_\theta \log p_\theta(H^{win}_{\ge t}) - \nabla_\theta \log p_\theta(H^{loss}_{\ge t})}_{\text{Preference Advantage Gradient (偏好优势梯度)}} \Big)$
两者唯一的区别仅在于权重项 $w$ 的计算方式。表明树内GRPO可以被解释为隐式地执行步级偏好优化，从而继承step-level DPO的关键属性。

3. 附录 C 理论证明推导过程

根据前面的设定， $H≥twin\mathcal{H}_{\geq t}^{win}$ 在集合 $C={H≥twin,H≥tloss}C=\{ \mathcal{H}_{\geq t}^{\text{win}}, \mathcal{H}_{\geq t}^{\text{loss}}\}$ 的概率为：
$pθ(H≥twin)=∏τ=tTπθ(Hτwin∣x,H<τ)=pθ(H≥twin∣C,x,H<t)=elog⁡pθ(H≥twin∣x,H<t)elog⁡pθ(H≥twin∣x,H<t)+elog⁡pθ(H≥tloss∣x,H<t)=σ(log⁡pθ(H≥twin∣x,H<t)−log⁡pθ(H≥tloss∣x,H<t)),\begin{aligned} p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) &= \prod_{\tau=t}^{T} \pi_\theta\left(\mathcal{H}_\tau^{\text{win}} \mid x, \mathcal{H}_{<\tau}\right) \\[6pt] &= p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid C, x, \mathcal{H}_{<t}\right) \\[8pt] &= \frac{e^{\log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right)}} {e^{\log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right)} + e^{\log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right)}} \\[8pt] &= \sigma\left( \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) - \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \right), \end{aligned}$
$σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}$ 是 Sigmoid 函数。
$pθ(H≥tloss)=1−pθ(H≥twin)=σ(log⁡pθ(H≥tloss∣x,H<t)−log⁡pθ(H≥twin∣x,H<t))p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) = 1 - p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) = \sigma\left( \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) - \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \right)$
对于 step-level DPO, 目标函数为：
$JDPO(θ)=E[log⁡σ(βΔθ)]=E[log⁡σ(β(log⁡pθ(H≥twin∣x,H<t)−log⁡pθ(H≥tloss∣x,H<t)))]\begin{aligned} J_{DPO}(\theta) &= \mathbb{E}[\log \sigma(\beta \Delta_\theta)] \\ &= \mathbb{E}[\log \sigma(\beta (\log p_{\theta}(\mathcal{H}_{\geq t}^{win} \mid x, \mathcal{H}_{<t}) - \log p_{\theta}(\mathcal{H}_{\geq t}^{loss} \mid x, \mathcal{H}_{<t})))] \\ \end{aligned}$
其中偏好被定义为 $Δθ=log⁡pθ(H≥twin∣x,H<t)−log⁡pθ(H≥tloss∣x,H<t)\Delta_\theta = \log p_{\theta}(\mathcal{H}_{\geq t}^{win} \mid x, \mathcal{H}_{<t}) - \log p_{\theta}(\mathcal{H}_{\geq t}^{loss} \mid x, \mathcal{H}_{<t})$ 。设 $z=βΔθz=\beta \Delta_\theta$ ， $β\beta$ 是温度参数，简化成=1.目标函数的梯度为：
$∇θJDPO(θ)=E[∇θlogσ(z)]=ddzlogσ(z)⋅∇θz=σ(−z)⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]=σ(logπθ(Hloss)−logπθ(Hwin))⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]=p(Hloss)⏟Weight⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]⏟PreferenceAdvantageGradient(偏好优势梯度)\begin{aligned} \nabla_{\theta} J_{DPO}(\theta) &= \mathbb{E}[\nabla_{\theta} log\sigma(z)] \\ &= \frac{d}{dz}log\sigma(z)\cdot\nabla_{\theta}z \\ &= \sigma(-z)\cdot [\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{win})-\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{loss})] \\ &= \sigma(log\pi_{\theta}(\mathcal{H}^{loss})-log\pi_{\theta}(\mathcal{H}^{win})) \cdot [\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{win})-\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{loss})] \\ &= \underbrace{p(\mathcal{H}^{loss})}_{Weight}\cdot\underbrace{[\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{win})-\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{loss})]}_{Preference Advantage Gradient (偏好优势梯度)} \\ \end{aligned}$
对于有 $G_{tree}$ 个叶子节点的intra-tree GRPO 的目标函数：
$JIntra-tree(θ)=E[x,H<t,H≥t∼πθ(⋅∣x,H<t)]1Gtree∑i=1Gtree[A^win+A^loss]J_{\text{Intra-tree}}(\theta) = \mathbb{E}_{\left[ x, \mathcal{H}_{<t}, \mathcal{H}_{\geq t} \sim \pi_\theta(\cdot \mid x, \mathcal{H}_{<t}) \right]} \frac{1}{G_{\text{tree}}} \sum_{i=1}^{G_{\text{tree}}} \left[ \hat{A}_{\text{win}} + \hat{A}_{\text{loss}} \right]$ .
梯度为：
$∇θJIntra-tree(θ)≈E[A^win∇θlog⁡pθ(H≥twin | x,H<t)+A^loss∇θlog⁡pθ(H≥tloss | x,H<t)]=pθ(H≥twin | x,H<t)A^win∇θlog⁡pθ(H≥twin | x,H<t)+pθ(H≥tloss | x,H<t)A^loss∇θlog⁡pθ(H≥tloss | x,H<t).\begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &\approx \mathbb{E} \left[ \hat{A}_{\text{win}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}_{<t} \right) + \hat{A}_{\text{loss}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}_{<t} \right) \right] \\ &= p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}_{<t} \right) \hat{A}_{\text{win}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}_{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}_{<t} \right) \hat{A}_{\text{loss}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}_{<t} \right). \end{aligned}$
在二值奖励下，基线 $Rbase=1⋅pθ(H≥twin)+0=pθ(H≥twin)R_{base} = 1 \cdot p_\theta(H^{win}_{\ge t}) + 0 = p_\theta(H^{win}_{\ge t})$ 。优势函数为： $A^win=1−Rbase=pθ(H≥tloss)\hat{A}_{win} = 1 - R_{base} = p_\theta(H^{loss}_{\ge t})$ ， $A^loss=0−Rbase=−pθ(H≥twin)\hat{A}_{loss} = 0 - R_{base} = -p_\theta(H^{win}_{\ge t})$ 。
代入策略梯度公式得：
$∇θJIntra-tree(θ)=pθ(H≥twin∣x,H<t)A^win∇θlog⁡pθ(H≥twin∣x,H<t)+pθ(H≥tloss∣x,H<t)A^loss∇θlog⁡pθ(H≥tloss∣x,H<t)=pθ(H≥twin∣x,H<t)⋅pθ(H≥tloss∣x,H<t)⋅∇θlog⁡pθ(H≥twin∣x,H<t)−pθ(H≥tloss∣x,H<t)⋅pθ(H≥twin∣x,H<t)⋅∇θlog⁡pθ(H≥tloss∣x,H<t)=pθ(H≥twin)pθ(H≥tloss)⏟Weight⋅[∇θlog⁡pθ(H≥twin)−∇θlog⁡pθ(H≥tloss)]⏟Preference Advantage Gradient \begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &= p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t} \right) \hat{A}_{\text{win}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t} \right) \hat{A}_{\text{loss}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t} \right) \\[6pt] &= p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \cdot p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \\ &\quad - p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \cdot p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \\[6pt] &= \underbrace{p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right)}_{\text{Weight}} \cdot \underbrace{\left[ \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) - \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) \right]}_{\text{Preference Advantage Gradient}} \end{aligned}$

DPO 的权重： $wDPO=pθ(H≥tloss)w_{DPO} = p_\theta(H^{loss}_{\ge t})$
Tree-GRPO 的权重： $wTree=pθ(H≥twin)⋅pθ(H≥tloss)w_{Tree} = p_\theta(H^{win}_{\ge t}) \cdot p_\theta(H^{loss}_{\ge t})$
DPO 权重 $p_{loss}$ 反映了模型对错误路径的执念有多深，旨在通过强力打压错误来拟合离线偏好数据。
Tree-GRPO 权重 $pwin⋅plossp_{win} \cdot p_{loss}$ 反映了模型在当前分叉点的困惑度，旨在通过解决不确定性最高的决策点来推进在线探索。

三、实验

数据集与基线：在 11 个数据集上测试，涵盖单跳 QA、多跳 QA 和 Web-Agent QA。对比基线包括 Direct Inference, Search-o1, ReAct, GRPO, GSPO。
核心结论：
1. 性能提升显著：Tree-GRPO 在所有规模模型上均优于链式方法。在多跳 QA 上，对小模型（<3b）带来 16%-69% 的相对提升；在 Web-Agent QA 上（如 GAIA）带来 28% 提升。
2. 预算高效性：在极度受限预算下（如仅 2 个完整 rollout 预算），链式 RL 难以学习，而 Tree-GRPO 实现了 112% 的相对提升。它甚至能用 1/4 的预算超越链式方法。
3. 行为变化：Tree-GRPO 鼓励模型进行更长的交互（平均工具调用次数从 2.4 增至 3.0）。