当工具决定一切:LLM 智能体盲目遵从图神经网络工具的实验报告

当工具决定一切:LLM 智能体盲目遵从图神经网络工具的实验报告

🔑 核心结论摘要

核心发现: 智能体对 GNN 工具的预测表现出 97.6%–99.2% 的极高同意率(跨 5 个随机种子),智能体坍缩为一个 GNN 鹦鹉(GNN Parrot)——它全盘采纳工具的输出,绕过自身的推理能力。

成本递增: 这种盲目遵从的成本随模型能力增长而显著扩大:在 33B 规模下,Oracle 差距为 0.09–0.18;在 77B 规模下增至 0.12–0.22。一个选择最优动作的 Oracle 能显著超越鹦鹉效应。

选择性调用的局限: 一个简单的选择性调用门控(Selective-Invocation Gate)只能恢复约一半的高同质性(high-homophily)差距(从 0.71→0.83),但信息天花板分析表明,标准测试时特征只能恢复 Oracle 优势空间的约 1/6 至 1/3。可靠的选择性调用仍是一个开放问题。


📊 全面分析

📈 核心发现(Key Findings)

1. “GNN 鹦鹉效应”(The GNN Parrot Effect)
  • 同意率: 97.6%–99.2%(跨同质性 regimes:ogbn-arxiv)
  • 行为模式: 智能体通常恰好执行一次工具调用(83% 的查询),读取预测标签,忽略其他不确定性信号(异常分数、链接概率)。
  • 能力放大: 模型越大越盲从——从 1.5B 的 ~60% 同意率升至 77B 的 ~98%。能力扩展带来的是遵从而非 discernment(判别力)。
2. 盲目遵从的成本递增(Growing Cost of Blind Deference)
  • Oracle 差距: Agent 与每节点 Oracle(选择最佳动作的最优策略)之间的性能差距:
    • 33B: 0.09–0.18(高同质性 regime)
    • 77B: 0.12–0.22(高同质性 regime)
  • 关键洞察: 在 77B 规模下,替代工具(如邻居标签查找)在homophily高的场景下表现优于 GNN(0.81 vs. 0.71),但智能体仍然选择盲从 GNN。
3. 选择性调用的局限性(Limits of Selective Invocation)
  • 门控恢复率: 简单门控仅恢复约 50% 的 Oracle 差距,且在其他场景下表现更差,无全局收益。
  • 信息天花板: 标准测试时特征只能恢复约 16%–33% 的 Oracle 优势空间。
  • 结论: 可靠的选择性调用受限于可用信息不足,而非路由器设计。
4. 跨模型与跨数据集验证
数据集同意率范围Oracle 差距范围
ogbn-arxiv97.6%–99.2%0.09–0.18 (33B) / 0.12–0.22 (77B)
WikiCS96.0%–100%0.03–0.23(峰值在低同质性)
  • 模型族边界: Qwen 系列表现出极端遵从(≥97%同意率),而 Mistral 和 OLMo 表现为部分遵从(53%–60%)。Qwen 的极端遵从是一个边界条件,但趋势具有跨族通用性。

🛠️ 实验设置(Experimental Setup)

工具定义

工具 ID名称描述
A1Frozen GNN返回预测标签、置信度、异常分数、链接概率
A2最小图导航工具neighbors() 最多返回 10 个训练标签;degree() 获取度信息
A3仅冻结 GNN无智能体的纯 GNN 推理
A4无图工具智能体仅文本推理的智能体

数据集

数据集节点数类别数关键特征
ogbn-arxiv169,00040学术引用图
WikiCS11,70010Wiki 计算机科学词条
  • 同质性子分类: low <0.3mid [0.3, 0.7)high ≥0.0.7
  • 注意: 同质性为分析轴,不提供给智能体。

协议(Protocol)

  • 循环方式: ReAct-style loop
  • Token 预算: 5,000 个 prompt + generation token
  • 最大工具调用次数: 6
  • 解码参数: Temperature 0.7
  • Prompt: 中文脚手架提示(scaffold prompts)

测试模型

模型参数量
Qwen2.5-Instruct0.5B, 1.5B, 33B, 77B
Mistral-7B7B
OLMo-2-7B7B

📊 实验脚本与资源

运行命令(参考)

# 运行智能体推理
python run_agent.py --model qwen2.5-77B --tool gnn --dataset ogbn-arxiv --homophily high

# 运行选择性调用门控评估
python run_gate.py --model qwen2.5-77B --tool gnn --dataset ogbn-arxiv --gate selective

# 运行 Oracle 上界分析
python run_oracle.py --model oracle --tool gnn --dataset ogbn-arxiv

资源下载

  • 论文原文: arXiv:2606.14476
  • 实验数据集: ogbn-arxiv (OAG)、WikiCS
  • 模型权重: Qwen2.5系列、Mistral-7B、OLMo-2-7B

📊 关键指标总结

指标
鹦鹉效应(同意率)0.976–0.992(跨同质性 regimes)
Oracle 差距(遵从成本)0.09–0.18 (33B) → 0.12–0.22 (77B)
选择性调用恢复率~1/6 至 1/3 的 Oracle 优势空间
跨数据集验证WikiCS: 0.96–1.00 同意率,Oracle 差距 0.03–0.23
预算与协议5,000 token + 最大 6 次工具调用,ReAct循环
测试模型Qwen2.5 (0.5B/1.5B/33B/77B), Mistral-7B, OLMo-2-7B
测试数据集ogbn-arxiv (169k 节点, 40类), WikiCS (11.7k 节点, 10类)

🔬 实验步骤详解

Step 1: 环境准备

# 克隆项目仓库
git clone <repository-url>
cd <project-dir>

# 安装依赖
pip install -r requirements.txt

# 下载数据集
python download_datasets.py

Step 2: 模型推理(ReAct Loop)

# 核心推理循环
def run_react_loop(agent, tool, node, budget=5000, max_calls=6):
    prompt = build_prompt(node, scaffold="zh")  # 中文脚手架
    history = []
    tool_calls = []
    
    for step in range(max_calls):
        response = agent.generate(prompt, history, temperature=0.7)
        tool_output = tool.execute(node) if needs_tool_call(response)
        history.append(response + "\n" + tool_output)
        prompt = build_next_prompt(history)
        tool_calls.append(tool_output)
    
    return history, tool_calls

Step 3: 选择性调用门控评估

# 门控逻辑
def selective_gate(node, predictions):
    homophily = compute_local_homophily(node)
    if homophily > threshold:
        return use_gnn_prediction(node)  # GNN更可靠
    else:
        return use_agent_reasoning(node)  # 智能体推理更可靠

Step 4: Oracle 上界分析

# Oracle 对比
def oracle_comparison(agent_prediction, gnn_prediction, neighbor_labels):
    # 选择每节点上最优的动作
    best = select_best_action(agent_prediction, gnn_prediction, neighbor_labels)
    gap = compute_oracle_gap(best, agent_prediction)
    return gap

💡 专家解读

核心结论

  1. LLM 智能体正在从"推理机"退化为"鹦鹉":随着模型规模增大,智能体对 GNN 工具的遵从度从约 60% 飙升至 98%,而非如预期般变得更加审慎。

  2. 工具扩展 ≠ 智能扩展Agent ++ Tool 系统的评估不能假设智能体会在工具之上增加判断力。选择性调用必须被显式设计,而非期望其在规模化过程中自然涌现。

  3. 选择性与信息限制:可靠的选择性调用受限于可用信息,而非路由器架构。这意味着即使在模型能力强大的情况下,智能体仍缺乏足够的信号来判断何时该信任工具、何时该自己推理。

对实践的意义

  • 工具链设计者: 不要假设智能体会智能地使用工具——需要显式设计选择机制。
  • 模型研究者: 报告 Agent+Tool 系统的性能时,必须包含 Oracle 上界和盲从基准。
  • 领域专家: 在使用 GNN 工具时,不要过度信任其输出——特别是在高同质性区域,邻居标签工具可能更优。

📋 结论

本实验揭示了一个令人惊讶的现象:随着 LLM 智能体规模的增大,其对 GNN 工具从"部分参考"演化为"几乎盲从",且这一趋势在更高维度上更加显著。选择性调用虽能部分缓解这一问题,但受限于信息天花板,无法完全消除盲从效应。可靠的选择性调用仍是开放问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值