当工具决定一切：LLM 智能体盲目遵从图神经网络工具的实验报告

原创已于 2026-06-18 09:45:27 修改 · 1k 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#神经网络 #人工智能 #深度学习

话题

#AI编程·六月创作之星博客挑战赛

于 2026-06-18 09:45:09 首次发布

人工智能 AI 专栏收录该内容

643 篇文章

订阅专栏

当工具决定一切：LLM 智能体盲目遵从图神经网络工具的实验报告

🔑 核心结论摘要

核心发现: 智能体对 GNN 工具的预测表现出 97.6%–99.2% 的极高同意率（跨 5 个随机种子），智能体坍缩为一个 GNN 鹦鹉（GNN Parrot）——它全盘采纳工具的输出，绕过自身的推理能力。

成本递增: 这种盲目遵从的成本随模型能力增长而显著扩大：在 33B 规模下，Oracle 差距为 0.09–0.18；在 77B 规模下增至 0.12–0.22。一个选择最优动作的 Oracle 能显著超越鹦鹉效应。

选择性调用的局限: 一个简单的选择性调用门控（Selective-Invocation Gate）只能恢复约一半的高同质性（high-homophily）差距（从 0.71→0.83），但信息天花板分析表明，标准测试时特征只能恢复 Oracle 优势空间的约 1/6 至 1/3。可靠的选择性调用仍是一个开放问题。

📊 全面分析

📈 核心发现（Key Findings）

1. “GNN 鹦鹉效应”（The GNN Parrot Effect）

同意率: 97.6%–99.2%（跨同质性 regimes：ogbn-arxiv）
行为模式: 智能体通常恰好执行一次工具调用（83% 的查询），读取预测标签，忽略其他不确定性信号（异常分数、链接概率）。
能力放大: 模型越大越盲从——从 1.5B 的 ~60% 同意率升至 77B 的 ~98%。能力扩展带来的是遵从而非 discernment（判别力）。

2. 盲目遵从的成本递增（Growing Cost of Blind Deference）

Oracle 差距: Agent 与每节点 Oracle（选择最佳动作的最优策略）之间的性能差距：
- 33B: 0.09–0.18（高同质性 regime）
- 77B: 0.12–0.22（高同质性 regime）
关键洞察: 在 77B 规模下，替代工具（如邻居标签查找）在homophily高的场景下表现优于 GNN（0.81 vs. 0.71），但智能体仍然选择盲从 GNN。

3. 选择性调用的局限性（Limits of Selective Invocation）

门控恢复率: 简单门控仅恢复约 50% 的 Oracle 差距，且在其他场景下表现更差，无全局收益。
信息天花板: 标准测试时特征只能恢复约 16%–33% 的 Oracle 优势空间。
结论: 可靠的选择性调用受限于可用信息不足，而非路由器设计。

4. 跨模型与跨数据集验证

数据集	同意率范围	Oracle 差距范围
ogbn-arxiv	`97.6%–99.2%`	`0.09–0.18` (33B) / `0.12–0.22` (77B)
WikiCS	`96.0%–100%`	`0.03–0.23`（峰值在低同质性）

模型族边界: Qwen 系列表现出极端遵从（≥97%同意率），而 Mistral 和 OLMo 表现为部分遵从（53%–60%）。Qwen 的极端遵从是一个边界条件，但趋势具有跨族通用性。

🛠️ 实验设置（Experimental Setup）

工具定义

工具 ID	名称	描述
A1	Frozen GNN	返回预测标签、置信度、异常分数、链接概率
A2	最小图导航工具	`neighbors()` 最多返回 10 个训练标签；`degree()` 获取度信息
A3	仅冻结 GNN	无智能体的纯 GNN 推理
A4	无图工具智能体	仅文本推理的智能体

数据集

数据集	节点数	类别数	关键特征
ogbn-arxiv	169,000	40	学术引用图
WikiCS	11,700	10	Wiki 计算机科学词条

同质性子分类: low <0.3、mid [0.3, 0.7)、high ≥0.0.7
注意: 同质性为分析轴，不提供给智能体。

协议（Protocol）

循环方式: ReAct-style loop
Token 预算: 5,000 个 prompt + generation token
最大工具调用次数: 6 次
解码参数: Temperature 0.7
Prompt: 中文脚手架提示（scaffold prompts）

测试模型

模型	参数量
Qwen2.5-Instruct	0.5B, 1.5B, 33B, 77B
Mistral-7B	7B
OLMo-2-7B	7B

📊 实验脚本与资源

运行命令（参考）

# 运行智能体推理
python run_agent.py --model qwen2.5-77B --tool gnn --dataset ogbn-arxiv --homophily high

# 运行选择性调用门控评估
python run_gate.py --model qwen2.5-77B --tool gnn --dataset ogbn-arxiv --gate selective

# 运行 Oracle 上界分析
python run_oracle.py --model oracle --tool gnn --dataset ogbn-arxiv

资源下载

论文原文: arXiv:2606.14476
实验数据集: ogbn-arxiv (OAG)、WikiCS
模型权重: Qwen2.5系列、Mistral-7B、OLMo-2-7B

📊 关键指标总结

指标	值
鹦鹉效应（同意率）	`0.976–0.992`（跨同质性 regimes）
Oracle 差距（遵从成本）	`0.09–0.18` (33B) → `0.12–0.22` (77B)
选择性调用恢复率	`~1/6 至 1/3` 的 Oracle 优势空间
跨数据集验证	WikiCS: `0.96–1.00` 同意率，Oracle 差距 `0.03–0.23`
预算与协议	`5,000` token + 最大 `6` 次工具调用，ReAct循环
测试模型	Qwen2.5 (0.5B/1.5B/33B/77B), Mistral-7B, OLMo-2-7B
测试数据集	ogbn-arxiv (169k 节点, 40类), WikiCS (11.7k 节点, 10类)

🔬 实验步骤详解

Step 1: 环境准备

# 克隆项目仓库
git clone <repository-url>
cd <project-dir>

# 安装依赖
pip install -r requirements.txt

# 下载数据集
python download_datasets.py

Step 2: 模型推理（ReAct Loop）

# 核心推理循环
def run_react_loop(agent, tool, node, budget=5000, max_calls=6):
    prompt = build_prompt(node, scaffold="zh")  # 中文脚手架
    history = []
    tool_calls = []
    
    for step in range(max_calls):
        response = agent.generate(prompt, history, temperature=0.7)
        tool_output = tool.execute(node) if needs_tool_call(response)
        history.append(response + "\n" + tool_output)
        prompt = build_next_prompt(history)
        tool_calls.append(tool_output)
    
    return history, tool_calls

Step 3: 选择性调用门控评估

# 门控逻辑
def selective_gate(node, predictions):
    homophily = compute_local_homophily(node)
    if homophily > threshold:
        return use_gnn_prediction(node)  # GNN更可靠
    else:
        return use_agent_reasoning(node)  # 智能体推理更可靠

Step 4: Oracle 上界分析

# Oracle 对比
def oracle_comparison(agent_prediction, gnn_prediction, neighbor_labels):
    # 选择每节点上最优的动作
    best = select_best_action(agent_prediction, gnn_prediction, neighbor_labels)
    gap = compute_oracle_gap(best, agent_prediction)
    return gap

💡 专家解读

核心结论

LLM 智能体正在从"推理机"退化为"鹦鹉"：随着模型规模增大，智能体对 GNN 工具的遵从度从约 60% 飙升至 98%，而非如预期般变得更加审慎。
工具扩展 ≠ 智能扩展：Agent ++ Tool 系统的评估不能假设智能体会在工具之上增加判断力。选择性调用必须被显式设计，而非期望其在规模化过程中自然涌现。
选择性与信息限制：可靠的选择性调用受限于可用信息，而非路由器架构。这意味着即使在模型能力强大的情况下，智能体仍缺乏足够的信号来判断何时该信任工具、何时该自己推理。