当工具决定一切:LLM 智能体盲目遵从图神经网络工具的实验报告
🔑 核心结论摘要
核心发现: 智能体对 GNN 工具的预测表现出
97.6%–99.2%的极高同意率(跨 5 个随机种子),智能体坍缩为一个 GNN 鹦鹉(GNN Parrot)——它全盘采纳工具的输出,绕过自身的推理能力。
成本递增: 这种盲目遵从的成本随模型能力增长而显著扩大:在 33B 规模下,Oracle 差距为
0.09–0.18;在 77B 规模下增至0.12–0.22。一个选择最优动作的 Oracle 能显著超越鹦鹉效应。
选择性调用的局限: 一个简单的选择性调用门控(Selective-Invocation Gate)只能恢复约一半的高同质性(high-homophily)差距(从
0.71→0.83),但信息天花板分析表明,标准测试时特征只能恢复 Oracle 优势空间的约1/6 至 1/3。可靠的选择性调用仍是一个开放问题。
📊 全面分析
📈 核心发现(Key Findings)
1. “GNN 鹦鹉效应”(The GNN Parrot Effect)
- 同意率:
97.6%–99.2%(跨同质性 regimes:ogbn-arxiv) - 行为模式: 智能体通常恰好执行一次工具调用(
83%的查询),读取预测标签,忽略其他不确定性信号(异常分数、链接概率)。 - 能力放大: 模型越大越盲从——从 1.5B 的
~60%同意率升至 77B 的~98%。能力扩展带来的是遵从而非 discernment(判别力)。
2. 盲目遵从的成本递增(Growing Cost of Blind Deference)
- Oracle 差距: Agent 与每节点 Oracle(选择最佳动作的最优策略)之间的性能差距:
- 33B:
0.09–0.18(高同质性 regime) - 77B:
0.12–0.22(高同质性 regime)
- 33B:
- 关键洞察: 在 77B 规模下,替代工具(如邻居标签查找)在homophily高的场景下表现优于 GNN(
0.81 vs. 0.71),但智能体仍然选择盲从 GNN。
3. 选择性调用的局限性(Limits of Selective Invocation)
- 门控恢复率: 简单门控仅恢复约
50%的 Oracle 差距,且在其他场景下表现更差,无全局收益。 - 信息天花板: 标准测试时特征只能恢复约
16%–33%的 Oracle 优势空间。 - 结论: 可靠的选择性调用受限于可用信息不足,而非路由器设计。
4. 跨模型与跨数据集验证
| 数据集 | 同意率范围 | Oracle 差距范围 |
|---|---|---|
| ogbn-arxiv | 97.6%–99.2% | 0.09–0.18 (33B) / 0.12–0.22 (77B) |
| WikiCS | 96.0%–100% | 0.03–0.23(峰值在低同质性) |
- 模型族边界: Qwen 系列表现出极端遵从(
≥97%同意率),而 Mistral 和 OLMo 表现为部分遵从(53%–60%)。Qwen 的极端遵从是一个边界条件,但趋势具有跨族通用性。
🛠️ 实验设置(Experimental Setup)
工具定义
| 工具 ID | 名称 | 描述 |
|---|---|---|
| A1 | Frozen GNN | 返回预测标签、置信度、异常分数、链接概率 |
| A2 | 最小图导航工具 | neighbors() 最多返回 10 个训练标签;degree() 获取度信息 |
| A3 | 仅冻结 GNN | 无智能体的纯 GNN 推理 |
| A4 | 无图工具智能体 | 仅文本推理的智能体 |
数据集
| 数据集 | 节点数 | 类别数 | 关键特征 |
|---|---|---|---|
| ogbn-arxiv | 169,000 | 40 | 学术引用图 |
| WikiCS | 11,700 | 10 | Wiki 计算机科学词条 |
- 同质性子分类:
low <0.3、mid [0.3, 0.7)、high ≥0.0.7 - 注意: 同质性为分析轴,不提供给智能体。
协议(Protocol)
- 循环方式: ReAct-style loop
- Token 预算:
5,000个 prompt + generation token - 最大工具调用次数:
6次 - 解码参数: Temperature
0.7 - Prompt: 中文脚手架提示(scaffold prompts)
测试模型
| 模型 | 参数量 |
|---|---|
| Qwen2.5-Instruct | 0.5B, 1.5B, 33B, 77B |
| Mistral-7B | 7B |
| OLMo-2-7B | 7B |
📊 实验脚本与资源
运行命令(参考)
# 运行智能体推理
python run_agent.py --model qwen2.5-77B --tool gnn --dataset ogbn-arxiv --homophily high
# 运行选择性调用门控评估
python run_gate.py --model qwen2.5-77B --tool gnn --dataset ogbn-arxiv --gate selective
# 运行 Oracle 上界分析
python run_oracle.py --model oracle --tool gnn --dataset ogbn-arxiv
资源下载
- 论文原文: arXiv:2606.14476
- 实验数据集: ogbn-arxiv (OAG)、WikiCS
- 模型权重: Qwen2.5系列、Mistral-7B、OLMo-2-7B
📊 关键指标总结
| 指标 | 值 |
|---|---|
| 鹦鹉效应(同意率) | 0.976–0.992(跨同质性 regimes) |
| Oracle 差距(遵从成本) | 0.09–0.18 (33B) → 0.12–0.22 (77B) |
| 选择性调用恢复率 | ~1/6 至 1/3 的 Oracle 优势空间 |
| 跨数据集验证 | WikiCS: 0.96–1.00 同意率,Oracle 差距 0.03–0.23 |
| 预算与协议 | 5,000 token + 最大 6 次工具调用,ReAct循环 |
| 测试模型 | Qwen2.5 (0.5B/1.5B/33B/77B), Mistral-7B, OLMo-2-7B |
| 测试数据集 | ogbn-arxiv (169k 节点, 40类), WikiCS (11.7k 节点, 10类) |
🔬 实验步骤详解
Step 1: 环境准备
# 克隆项目仓库
git clone <repository-url>
cd <project-dir>
# 安装依赖
pip install -r requirements.txt
# 下载数据集
python download_datasets.py
Step 2: 模型推理(ReAct Loop)
# 核心推理循环
def run_react_loop(agent, tool, node, budget=5000, max_calls=6):
prompt = build_prompt(node, scaffold="zh") # 中文脚手架
history = []
tool_calls = []
for step in range(max_calls):
response = agent.generate(prompt, history, temperature=0.7)
tool_output = tool.execute(node) if needs_tool_call(response)
history.append(response + "\n" + tool_output)
prompt = build_next_prompt(history)
tool_calls.append(tool_output)
return history, tool_calls
Step 3: 选择性调用门控评估
# 门控逻辑
def selective_gate(node, predictions):
homophily = compute_local_homophily(node)
if homophily > threshold:
return use_gnn_prediction(node) # GNN更可靠
else:
return use_agent_reasoning(node) # 智能体推理更可靠
Step 4: Oracle 上界分析
# Oracle 对比
def oracle_comparison(agent_prediction, gnn_prediction, neighbor_labels):
# 选择每节点上最优的动作
best = select_best_action(agent_prediction, gnn_prediction, neighbor_labels)
gap = compute_oracle_gap(best, agent_prediction)
return gap
💡 专家解读
核心结论
-
LLM 智能体正在从"推理机"退化为"鹦鹉":随着模型规模增大,智能体对 GNN 工具的遵从度从约 60% 飙升至 98%,而非如预期般变得更加审慎。
-
工具扩展 ≠ 智能扩展:
Agent ++ Tool系统的评估不能假设智能体会在工具之上增加判断力。选择性调用必须被显式设计,而非期望其在规模化过程中自然涌现。 -
选择性与信息限制:可靠的选择性调用受限于可用信息,而非路由器架构。这意味着即使在模型能力强大的情况下,智能体仍缺乏足够的信号来判断何时该信任工具、何时该自己推理。
对实践的意义
- 工具链设计者: 不要假设智能体会智能地使用工具——需要显式设计选择机制。
- 模型研究者: 报告 Agent+Tool 系统的性能时,必须包含 Oracle 上界和盲从基准。
- 领域专家: 在使用 GNN 工具时,不要过度信任其输出——特别是在高同质性区域,邻居标签工具可能更优。
📋 结论
本实验揭示了一个令人惊讶的现象:随着 LLM 智能体规模的增大,其对 GNN 工具从"部分参考"演化为"几乎盲从",且这一趋势在更高维度上更加显著。选择性调用虽能部分缓解这一问题,但受限于信息天花板,无法完全消除盲从效应。可靠的选择性调用仍是开放问题。
372

被折叠的 条评论
为什么被折叠?



