标题:TREE SEARCH FOR LLM AGENT REINFORCEMENT LEARNING
arxiv:2509.21240v3 | GitHub: https://github.com/AMAP-ML/Tree-GRPO
一、背景
(一) 研究背景与痛点
在多轮 Agentic RL 中,LLM 需要通过“思考-动作-观测”的循环与环境交互来完成复杂任务。现有方法(如 GRPO)通常采用链式独立采样,面临两大核心痛点:
- 痛点1:LLM rollout 需要消耗大量资源。 现有分组 RL 方法为每个任务采样多条独立轨迹,存在大量冗余。在实际训练中,rollout 阶段占据了主要的训练时间,且多轮交互会产生高昂的工具调用成本(如搜索 API)。
- 痛点2:长时程的、多轮轨迹的监督信号稀疏。 现有方法大多只在最终结果给出一个标量奖励,整个多轮轨迹共享同一个信用分配。这导致模型难以识别具体哪个中间步骤导致了成功或失败,容易学习到“捷径”或发生训练崩溃。
(二) 预备知识
- 多轮Agent 框架:Agent 在每一步 ttt 基于上下文sts_tst生成思考 τt\tau_tτt 和动作 αt\alpha_tαt,环境返回观测 oto_tot,一个完整的T步轨迹表示为H={(τ0,α0,o0),(τ1,α1,o1),…,(τT−1,αT−1,oT−1)}\mathcal{H} = \big\{ (\tau_0, \alpha_0, o_0), (\tau_1, \alpha_1, o_1), \dots, (\tau_{T-1}, \alpha_{T-1}, o_{T-1}) \big\}H={(τ0,α0,o0),(τ1,α1,o1),…,(τT−1,αT−1,oT−1)},可建模为马尔可夫决策过程 M={S,A,P}\mathcal{M}=\{\mathcal{S}, \mathcal{A}, \mathcal{P}\}M={S,A,P},S表示状态,A表示动作空间(τt,αt)(τ_t, α_t)(τt,αt),P表示转移,整个过程可基于LLM的策略参数πθπ_θπθ表述为:
pθ(s0:T,τ0:T,α0:T,o0:T)=p(s0)∏t=0T−1[πθ(τt∣st)πθ(αt∣st,τt)Penv(ot+1∣αt)] p_\theta\left(s_{0:T}, \tau_{0:T}, \alpha_{0:T}, o_{0:T}\right)= p(s_0) \prod_{t=0}^{T-1} [\pi_\theta(\tau_t \mid s_t) \pi_\theta(\alpha_t \mid s_t, \tau_t) P_{\text{env}}(o_{t+1} \mid \alpha_t)] pθ(s0:T,τ0:T,α0:T,o0:T)=p(s0)t=0∏T−1[πθ(τt∣st)πθ(αt∣st,τt)Penv(ot+1∣αt)] - Agentic RL:基于结果奖励 R(⋅)R(\cdot)R(⋅) 优化策略 πθ\pi_\thetaπθ,最大化期望回报 J(θ)=EH∼pθ[R(H)]J(\theta) = \mathbb{E}_{H \sim p_\theta}[R(H)]J(θ)=EH∼pθ[R(H)]。Tree-GRPO多采用基于组的RL算法,即采样一组 NNN 个候选 rollout,计算组内相对优势A^\hat{A}A^来指导优化。
二、方法
(一)Agent 步骤级树搜索采样
Tree-GRPO 将一个“思考-动作-观测”元组 (τt,αt,ot)(\tau_t, \alpha_t, o_t)(τt,αt,ot) 作为一个树节点,采用“initialize-then-expand”方法。
- 初始化:对于给定问题xix_ixi,并行生成 MMM 条独立的链式轨迹Y={Hi∼πθ(⋅∣xi)}MY = \{ \mathcal{H}^i \sim \pi_{\theta}(\cdot | x_i)\}^MY={Hi∼πθ(⋅∣xi)}M,作为 MMM 棵初始树 T\mathcal{T}T。
- 采样:从每棵树中随机采样 NNN 个非叶子节点Pi={pi,j∈Ti}NP_i=\{p_{i,j} \in \mathcal{T_i}\}^NPi={pi,j∈Ti}N(即未输出
<answer>的中间步骤),作为待扩展节点。 - 扩展:将选中节点Pi,jP_{i,j}Pi,j 从根节点到该节点的完整上下文H<ti={pi,jroot,⋯ ,pi,jfather,pi,j}\mathcal{H}^i_{\lt t} = \{p_{i,j}^{root},\cdots,p_{i,j}^{father},p_{i,j}\}H<ti={pi,jroot,⋯,pi,jfather,pi,j}和原始提示词xix_ixi作为前缀输入,继续生成后续响应Ynew={H≥ti∼πθ(⋅∣xi,H<ti)}NY_{new}= \{\mathcal{H}^i_{\ge t} \sim \pi_{\theta}(\cdot | x_i,\mathcal{H}^i_{\lt t})\}^NYnew={H≥ti∼πθ(⋅∣xi,H<ti)}N。模型会持续进行多轮交互,直到输出
<answer>或达到最大预算限制。生成结果作为新分支插入原树Ti←Ti∪Ynew.T_i \leftarrow T_i \cup Y_{\mathrm{new}}.Ti←Ti∪Ynew.。此过程重复 LLL 次。
预算计算:
设一条单链 Agent 轨迹的最大期望预算(包含 Token 和工具调用限制)为 BBB。
- 初始化 MMM 棵树消耗:M⋅BM \cdot BM⋅B。
- 扩展时,随机选取的中间节点期望深度是最大深度的一半,因此只需生成“后半段”轨迹,期望成本为 B/2B/2B/2。
- 总期望预算公式:E[Btree]=M⋅B+L⋅N⋅B/2E[B_{tree}] = M \cdot B + L \cdot N \cdot B/2E[Btree]=M⋅B+L⋅N⋅B/2。
注:在实际工程中,BBB 是预设的硬性截断上限(如max_tool_calls=3),系统通过扣除已有前缀的消耗来动态裁剪新分支,公式用于证明树搜索在期望意义下的高效性。
(二)树结构分组相对优势估计
传统轨迹级优势估计将整个多轮轨迹分配相同的信用:A(H)=A({(τ0,α0,o0)...(τT,αT,oT)})A(H) = A(\{(\tau_0, \alpha_0, o_0)...(\tau_T, \alpha_T, o_T)\})A(H)=A({(τ0,α0,o0)...(τT,αT,oT)}),导致严重的信用分配稀疏问题。
Tree-GRPO 利用树状分叉,将叶子节点的结果奖励回传,在分叉点自然形成偏好学习信号。因为每个树内分支数量有限,可能导致基线估计不可靠,Tree-GRPO将两个层级的优势计算结合了起来:树内优势 (A^Intra−tree\hat{A}_{Intra-tree}A^Intra−tree)、树间优势 (A^Inter−tree\hat{A}_{Inter-tree}A^Inter−tree)。
具体公式(Eq. 6):
A^Intra/Inter−tree(Hi)=R(Hi)−mean({R(Hj)}jGIntra/Inter−tree(Ti))std({R(Hj)}jGIntra/Inter−tree(Ti)) \hat{A}_{Intra/Inter-tree}(H^i) = \frac{R(H^i) - mean(\{R(H^j)\}_j^{G_{Intra/Inter-tree}(T_i)})}{std(\{R(H^j)\}_j^{G_{Intra/Inter-tree}(T_i)})} A^Intra/Inter−tree(Hi)=std({R(Hj)}jGIntra/Inter−tree(Ti))R(Hi)−mean({R(Hj)}jGIntra/Inter−tree(Ti))
最终优势融合(Eq. 7):
A^tree(Hi)=A^Intra−tree(Hi)+A^Inter−tree(Hi) \hat{A}_{tree}(H^i) = \hat{A}_{Intra-tree}(H^i) + \hat{A}_{Inter-tree}(H^i) A^tree(Hi)=A^Intra−tree(Hi)+A^Inter−tree(Hi)
Tree-GRPO 的最终目标函数(Eq. 8)在标准 PPO/GRPO 框架下引入该融合优势,并加入 KL 散度约束:
JTree−GRPO(θ)=Ex∼D,H∼πold[1G∑i=1G1∣Hi∣∑t=1∣Hi∣min(ri,t(θ)A^tree(Hi),clip(ri,t(θ),1−ϵ,1+ϵ)A^tree(Hi))−βDKL(πθ∣∣πref)] J_{Tree-GRPO}(\theta) = \mathbb{E}_{x \sim \mathcal{D}, H \sim \pi_{old}} \left[ \frac{1}{G} \sum_{i=1}^G \frac{1}{|H^i|} \sum_{t=1}^{|H^i|} \min(r_{i,t}(\theta)\hat{A}_{tree}(H^i), clip(r_{i,t}(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_{tree}(H^i)) - \beta D_{KL}(\pi_{\theta}||\pi_{ref}) \right] JTree−GRPO(θ)=Ex∼D,H∼πoldG1i=1∑G∣Hi∣1t=1∑∣Hi∣min(ri,t(θ)A^tree(Hi),clip(ri,t(θ),1−ϵ,1+ϵ)A^tree(Hi))−βDKL(πθ∣∣πref)

(三)隐式步骤级偏好学习
1. Assumption 3.1 (二值偏好设定)
对于树中任意中间节点 (x,H<t)(x, H_{<t})(x,H<t),假设其后续子轨迹分为两类:
- 获胜 H≥twinH^{win}_{\ge t}H≥twin:最终获得正向奖励 (Reward = 1)。
- 失败 H≥tlossH^{loss}_{\ge t}H≥tloss:最终获得零奖励 (Reward = 0)。
且两者概率之和为 1。
路径的概率可定义为:pθ(H≥twin)=1−pθ(H≥tloss)=∏τ=tTπθ(Hτwin∣x,H<τ)p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right)
= 1 - p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right)
= \prod_{\tau=t}^{T} \pi_\theta\left(\mathcal{H}_\tau^{\text{win}} \mid x, \mathcal{H}_{<\tau}\right)pθ(H≥twin)=1−pθ(H≥tloss)=∏τ=tTπθ(Hτwin∣x,H<τ)
基于此设定,
- step-level DPO 的梯度为:
∇θJstep-DPO(θ)=E(x,H<t,H≥twin,H≥tloss)∼D[σ(βlogpθ(H≥tloss)−βlogpθ(H≥twin))⋅(∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss))]\nabla_{\theta} J_{\text{step-DPO}}(\theta) = \mathbb{E}_{(x, \mathcal{H}_{<t}, \mathcal{H}_{\geq t}^{\text{win}}, \mathcal{H}_{\geq t}^{\text{loss}}) \sim \mathcal{D}} \Bigg[ \sigma\left( \beta \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) - \beta \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{win}}\right) \right) \cdot \left( \nabla_{\theta} \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{win}}\right) - \nabla_{\theta} \log p_{\theta}\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) \right) \Bigg]∇θJstep-DPO(θ)=E(x,H<t,H≥twin,H≥tloss)∼D[σ(βlogpθ(H≥tloss)−βlogpθ(H≥twin))⋅(∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss))] - intra-tree GRPO 的梯度为:
∇θJIntra-tree(θ)=pθ(H≥twin)⋅pθ(H≥tloss)⋅[∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss)]\nabla_{\theta} J_{\text{Intra-tree}}(\theta) = p_{\theta}(\mathcal{H}_{\geq t}^{\text{win}}) \cdot p_{\theta}(\mathcal{H}_{\geq t}^{\text{loss}}) \cdot \left[ \nabla_{\theta} \log p_{\theta}(\mathcal{H}_{\geq t}^{\text{win}}) - \nabla_{\theta} \log p_{\theta}(\mathcal{H}_{\geq t}^{\text{loss}}) \right]∇θJIntra-tree(θ)=pθ(H≥twin)⋅pθ(H≥tloss)⋅[∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss)]
2. Proposition 3.1 (结构等价性)
在上述假设下,步骤级 DPO 与树内 GRPO 的梯度估计器具有完全相同的形式:
∇θJunified(θ)=w⏟Weight⋅(∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss)⏟Preference Advantage Gradient (偏好优势梯度)) \nabla_\theta J_{unified}(\theta) = \underbrace{w}_{\text{Weight}} \cdot \Big( \underbrace{\nabla_\theta \log p_\theta(H^{win}_{\ge t}) - \nabla_\theta \log p_\theta(H^{loss}_{\ge t})}_{\text{Preference Advantage Gradient (偏好优势梯度)}} \Big) ∇θJunified(θ)=Weightw⋅(Preference Advantage Gradient (偏好优势梯度)∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss))
两者唯一的区别仅在于权重项 www 的计算方式。表明树内GRPO可以被解释为隐式地执行步级偏好优化,从而继承step-level DPO的关键属性。
3. 附录 C 理论证明推导过程
-
根据前面的设定,H≥twin\mathcal{H}_{\geq t}^{win}H≥twin在集合C={H≥twin,H≥tloss}C=\{ \mathcal{H}_{\geq t}^{\text{win}}, \mathcal{H}_{\geq t}^{\text{loss}}\}C={H≥twin,H≥tloss}的概率为:
pθ(H≥twin)=∏τ=tTπθ(Hτwin∣x,H<τ)=pθ(H≥twin∣C,x,H<t)=elogpθ(H≥twin∣x,H<t)elogpθ(H≥twin∣x,H<t)+elogpθ(H≥tloss∣x,H<t)=σ(logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)),\begin{aligned} p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) &= \prod_{\tau=t}^{T} \pi_\theta\left(\mathcal{H}_\tau^{\text{win}} \mid x, \mathcal{H}_{<\tau}\right) \\[6pt] &= p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid C, x, \mathcal{H}_{<t}\right) \\[8pt] &= \frac{e^{\log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right)}} {e^{\log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right)} + e^{\log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right)}} \\[8pt] &= \sigma\left( \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) - \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \right), \end{aligned}pθ(H≥twin)=τ=t∏Tπθ(Hτwin∣x,H<τ)=pθ(H≥twin∣C,x,H<t)=elogpθ(H≥twin∣x,H<t)+elogpθ(H≥tloss∣x,H<t)elogpθ(H≥twin∣x,H<t)=σ(logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)),
σ(x)=11+e−x\sigma(x) = \frac{1}{1 + e^{-x}}σ(x)=1+e−x1是 Sigmoid 函数。
pθ(H≥tloss)=1−pθ(H≥twin)=σ(logpθ(H≥tloss∣x,H<t)−logpθ(H≥twin∣x,H<t))p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) = 1 - p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) = \sigma\left( \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) - \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \right)pθ(H≥tloss)=1−pθ(H≥twin)=σ(logpθ(H≥tloss∣x,H<t)−logpθ(H≥twin∣x,H<t)) -
对于 step-level DPO, 目标函数为:
JDPO(θ)=E[logσ(βΔθ)]=E[logσ(β(logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)))]\begin{aligned} J_{DPO}(\theta) &= \mathbb{E}[\log \sigma(\beta \Delta_\theta)] \\ &= \mathbb{E}[\log \sigma(\beta (\log p_{\theta}(\mathcal{H}_{\geq t}^{win} \mid x, \mathcal{H}_{<t}) - \log p_{\theta}(\mathcal{H}_{\geq t}^{loss} \mid x, \mathcal{H}_{<t})))] \\ \end{aligned} JDPO(θ)=E[logσ(βΔθ)]=E[logσ(β(logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)))]
其中偏好被定义为Δθ=logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)\Delta_\theta = \log p_{\theta}(\mathcal{H}_{\geq t}^{win} \mid x, \mathcal{H}_{<t}) - \log p_{\theta}(\mathcal{H}_{\geq t}^{loss} \mid x, \mathcal{H}_{<t})Δθ=logpθ(H≥twin∣x,H<t)−logpθ(H≥tloss∣x,H<t)。设z=βΔθz=\beta \Delta_\thetaz=βΔθ,β\betaβ是温度参数,简化成=1.目标函数的梯度为:
∇θJDPO(θ)=E[∇θlogσ(z)]=ddzlogσ(z)⋅∇θz=σ(−z)⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]=σ(logπθ(Hloss)−logπθ(Hwin))⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]=p(Hloss)⏟Weight⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]⏟PreferenceAdvantageGradient(偏好优势梯度)\begin{aligned} \nabla_{\theta} J_{DPO}(\theta) &= \mathbb{E}[\nabla_{\theta} log\sigma(z)] \\ &= \frac{d}{dz}log\sigma(z)\cdot\nabla_{\theta}z \\ &= \sigma(-z)\cdot [\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{win})-\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{loss})] \\ &= \sigma(log\pi_{\theta}(\mathcal{H}^{loss})-log\pi_{\theta}(\mathcal{H}^{win})) \cdot [\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{win})-\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{loss})] \\ &= \underbrace{p(\mathcal{H}^{loss})}_{Weight}\cdot\underbrace{[\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{win})-\nabla_{\theta}log\pi_{\theta}(\mathcal{H}^{loss})]}_{Preference Advantage Gradient (偏好优势梯度)} \\ \end{aligned} ∇θJDPO(θ)=E[∇θlogσ(z)]=dzdlogσ(z)⋅∇θz=σ(−z)⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]=σ(logπθ(Hloss)−logπθ(Hwin))⋅[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)]=Weightp(Hloss)⋅PreferenceAdvantageGradient(偏好优势梯度)[∇θlogπθ(Hwin)−∇θlogπθ(Hloss)] -
对于有GtreeG_{tree}Gtree个叶子节点的intra-tree GRPO 的目标函数:
JIntra-tree(θ)=E[x,H<t,H≥t∼πθ(⋅∣x,H<t)]1Gtree∑i=1Gtree[A^win+A^loss]J_{\text{Intra-tree}}(\theta) = \mathbb{E}_{\left[ x, \mathcal{H}_{<t}, \mathcal{H}_{\geq t} \sim \pi_\theta(\cdot \mid x, \mathcal{H}_{<t}) \right]} \frac{1}{G_{\text{tree}}} \sum_{i=1}^{G_{\text{tree}}} \left[ \hat{A}_{\text{win}} + \hat{A}_{\text{loss}} \right]JIntra-tree(θ)=E[x,H<t,H≥t∼πθ(⋅∣x,H<t)]Gtree1i=1∑Gtree[A^win+A^loss].
梯度为:
∇θJIntra-tree(θ)≈E[A^win∇θlogpθ(H≥twin | x,H<t)+A^loss∇θlogpθ(H≥tloss | x,H<t)]=pθ(H≥twin | x,H<t)A^win∇θlogpθ(H≥twin | x,H<t)+pθ(H≥tloss | x,H<t)A^loss∇θlogpθ(H≥tloss | x,H<t).\begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &\approx \mathbb{E} \left[ \hat{A}_{\text{win}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}_{<t} \right) + \hat{A}_{\text{loss}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}_{<t} \right) \right] \\ &= p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}_{<t} \right) \hat{A}_{\text{win}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \,\middle|\, x, \mathcal{H}_{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}_{<t} \right) \hat{A}_{\text{loss}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \,\middle|\, x, \mathcal{H}_{<t} \right). \end{aligned}∇θJIntra-tree(θ)≈E[A^win∇θlogpθ(H≥twinx,H<t)+A^loss∇θlogpθ(H≥tlossx,H<t)]=pθ(H≥twinx,H<t)A^win∇θlogpθ(H≥twinx,H<t)+pθ(H≥tlossx,H<t)A^loss∇θlogpθ(H≥tlossx,H<t).
在二值奖励下,基线 Rbase=1⋅pθ(H≥twin)+0=pθ(H≥twin)R_{base} = 1 \cdot p_\theta(H^{win}_{\ge t}) + 0 = p_\theta(H^{win}_{\ge t})Rbase=1⋅pθ(H≥twin)+0=pθ(H≥twin)。优势函数为:A^win=1−Rbase=pθ(H≥tloss)\hat{A}_{win} = 1 - R_{base} = p_\theta(H^{loss}_{\ge t})A^win=1−Rbase=pθ(H≥tloss),A^loss=0−Rbase=−pθ(H≥twin)\hat{A}_{loss} = 0 - R_{base} = -p_\theta(H^{win}_{\ge t})A^loss=0−Rbase=−pθ(H≥twin)。
代入策略梯度公式得:
∇θJIntra-tree(θ)=pθ(H≥twin∣x,H<t)A^win∇θlogpθ(H≥twin∣x,H<t)+pθ(H≥tloss∣x,H<t)A^loss∇θlogpθ(H≥tloss∣x,H<t)=pθ(H≥twin∣x,H<t)⋅pθ(H≥tloss∣x,H<t)⋅∇θlogpθ(H≥twin∣x,H<t)−pθ(H≥tloss∣x,H<t)⋅pθ(H≥twin∣x,H<t)⋅∇θlogpθ(H≥tloss∣x,H<t)=pθ(H≥twin)pθ(H≥tloss)⏟Weight⋅[∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss)]⏟Preference Advantage Gradient \begin{aligned} \nabla_\theta J_{\text{Intra-tree}}(\theta) &= p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t} \right) \hat{A}_{\text{win}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t} \right) \\ &\quad + p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t} \right) \hat{A}_{\text{loss}} \nabla_\theta \log p_\theta \left( \mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t} \right) \\[6pt] &= p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \cdot p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \\ &\quad - p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \cdot p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}} \mid x, \mathcal{H}_{<t}\right) \cdot \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}} \mid x, \mathcal{H}_{<t}\right) \\[6pt] &= \underbrace{p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right)}_{\text{Weight}} \cdot \underbrace{\left[ \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{win}}\right) - \nabla_\theta \log p_\theta\left(\mathcal{H}_{\geq t}^{\text{loss}}\right) \right]}_{\text{Preference Advantage Gradient}} \end{aligned} ∇θJIntra-tree(θ)=pθ(H≥twin∣x,H<t)A^win∇θlogpθ(H≥twin∣x,H<t)+pθ(H≥tloss∣x,H<t)A^loss∇θlogpθ(H≥tloss∣x,H<t)=pθ(H≥twin∣x,H<t)⋅pθ(H≥tloss∣x,H<t)⋅∇θlogpθ(H≥twin∣x,H<t)−pθ(H≥tloss∣x,H<t)⋅pθ(H≥twin∣x,H<t)⋅∇θlogpθ(H≥tloss∣x,H<t)=Weightpθ(H≥twin)pθ(H≥tloss)⋅Preference Advantage Gradient[∇θlogpθ(H≥twin)−∇θlogpθ(H≥tloss)]
- DPO 的权重:wDPO=pθ(H≥tloss)w_{DPO} = p_\theta(H^{loss}_{\ge t})wDPO=pθ(H≥tloss)
- Tree-GRPO 的权重:wTree=pθ(H≥twin)⋅pθ(H≥tloss)w_{Tree} = p_\theta(H^{win}_{\ge t}) \cdot p_\theta(H^{loss}_{\ge t})wTree=pθ(H≥twin)⋅pθ(H≥tloss)
DPO 权重 plossp_{loss}ploss 反映了模型对错误路径的执念有多深,旨在通过强力打压错误来拟合离线偏好数据。
Tree-GRPO 权重 pwin⋅plossp_{win} \cdot p_{loss}pwin⋅ploss 反映了模型在当前分叉点的困惑度,旨在通过解决不确定性最高的决策点来推进在线探索。
三、实验
- 数据集与基线:在 11 个数据集上测试,涵盖单跳 QA、多跳 QA 和 Web-Agent QA。对比基线包括 Direct Inference, Search-o1, ReAct, GRPO, GSPO。
- 核心结论:
- 性能提升显著:Tree-GRPO 在所有规模模型上均优于链式方法。在多跳 QA 上,对小模型(<3b)带来 16%-69% 的相对提升;在 Web-Agent QA 上(如 GAIA)带来 28% 提升。
- 预算高效性:在极度受限预算下(如仅 2 个完整 rollout 预算),链式 RL 难以学习,而 Tree-GRPO 实现了 112% 的相对提升。它甚至能用 1/4 的预算超越链式方法。
- 行为变化:Tree-GRPO 鼓励模型进行更长的交互(平均工具调用次数从 2.4 增至 3.0)。

284

被折叠的 条评论
为什么被折叠?



