Llama Index智能体实战：Function Calling与Agentic RAG工程落地指南

最新推荐文章于 2026-06-26 14:08:09 发布

原创最新推荐文章于 2026-06-26 14:08:09 发布 · 293 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#Function Calling #Agentic RAG #ReACT

1. 项目概述：用 Llama Index 搭建可落地的智能体工作流

我从2022年底开始系统性地把 Llama Index 当作日常开发主力工具，不是为了追新，而是它真正在解决一个长期被低估的痛点：大模型不是万能的，但怎么让模型“知道自己不会什么”，并主动调用外部能力去补足，这件事过去三年里一直缺乏一套干净、稳定、可调试的工程化路径。这篇内容讲的，就是我在真实项目中反复验证过的那套方法——不讲概念，不画大饼，只说怎么用 Function Calling 让模型调用你写的 Python 函数，怎么用 Agentic RAG 把知识库检索变成带思考链的多步推理，怎么用 ReACT 框架让一个搜索助手真正学会“先查再想再答”，而不是一上来就瞎猜。关键词里的 “Towards AI” 和 “Medium” 只是原始出处标记，实际内容完全剥离平台属性，所有代码、配置、调试技巧都来自我手上的三个生产级项目：一个金融合规文档自动核查系统、一个工业设备故障知识库问答引擎、还有一个面向中小企业的合同条款比对工具。这些都不是玩具 Demo，它们每天处理上千次真实请求，其中最核心的调度逻辑，全靠 Llama Index 的 Agent Runner 和自定义 Tool 构建。如果你正卡在“模型回答不准”“知识库更新后效果断崖下跌”“用户问法一变就崩”这类问题上，这篇内容会直接给你可抄、可改、可上线的方案。

2. 整体设计思路与技术选型逻辑

2.1 为什么必须放弃“单次 Prompt + RAG”的老路？

很多团队还在用“用户提问 → 向量库检索 top-k 文档 → 拼进 Prompt 给 LLM 回答”这种线性流程。我试过，在小规模测试集上准确率能到 85%，但一放到真实业务场景，立刻掉到 42%。根本原因在于： 它把“检索”和“推理”强行割裂了。 比如用户问：“上个月华东区三台同型号泵的故障率是否超过阈值？如果超了，可能原因有哪些？”——这个查询需要先识别出“华东区”“上个月”“泵”“故障率”“阈值”这几个关键实体，再分步执行：① 查华东区泵的设备清单；② 查这三台泵上月的故障日志；③ 计算平均故障率；④ 对比阈值；⑤ 如果超标，再查历史同类故障的根因分析报告。传统 RAG 一步检索，大概率只捞到“泵的维护手册”或“故障率定义”，根本覆盖不了这个多跳逻辑。Llama Index 的 Agentic RAG 就是为解决这个而生的：它让模型自己决定“下一步该查什么”，把检索动作变成可编程、可追踪、可回溯的函数调用。这不是炫技，是工程必要性。

2.2 为什么选 Llama Index 而非 LangChain 或直接调用 OpenAI SDK？

LangChain 的 Agent 框架我深度用过两轮，最大的问题是 Tool 注册和调用链路太重，调试成本高。 每次加一个新 Tool，要写 Schema、写 parse_args、写 run 方法，还要在 Agent 初始化时注册，一旦 Tool 报错，整个链路中断，日志里只显示“Tool execution failed”，根本看不到是哪个参数传错了。而 Llama Index 的 FunctionTool 设计极其轻量：你只要写一个标准 Python 函数，用 @tool 装饰器包一下，它自动帮你生成 OpenAPI-style 的 JSON Schema，连 type 和 description 都能从函数 docstring 里抽出来。更关键的是它的 AgentRunner ：它把“思考→调用→观察→再思考”这个循环封装成一个可插拔的 ReActAgent 类，你可以随时替换 llm 、 tools 、甚至整个 output_parser 。我去年给一家风电客户做的故障诊断 Agent，就是把 ReActAgent 的 output_parser 替换成自定义类，强制它每次输出必须包含 {"action": "search", "action_input": "xxx"} 这种结构，否则就报错重试——这保证了下游系统能无歧义地解析指令。OpenAI 原生的 Function Calling 虽然也支持，但它把所有 Tool 定义硬编码在 API 请求体里，每次改一个参数都要重发整个请求，没法做本地单元测试，线上灰度发布风险极高。

2.3 三种核心模式的定位与协作关系

很多人把 Function Calling、Agentic RAG、ReACT 当成并列选项，其实它们是 递进式能力叠加 ：

Function Calling 是地基 ：解决“模型如何调用你的代码”。没有它，所有高级能力都是空中楼阁。它的价值不是让模型调用天气 API，而是让它能调用你封装好的 get_device_status(device_id: str) 或 calculate_compliance_score(contract_text: str) —— 这些才是业务真正的“肌肉”。
Agentic RAG 是桥梁 ：解决“模型如何动态决定查什么”。它把 RAG 从被动响应变成主动探索。比如用户问“对比 A 合同和 B 合同的付款条款”，传统 RAG 会同时检索 A 和 B 的全文，结果混在一起；Agentic RAG 则会让模型先调用 search_contract(contract_id="A", section="payment") ，拿到 A 的付款条款后，再调用 search_contract(contract_id="B", section="payment") ，最后才做对比。每一步都有明确输入输出，可审计、可优化。
ReACT 是大脑 ：解决“模型如何规划多步任务”。ReACT 不是新算法，它是把经典的“Reasoning-Acting-Observation”循环工程化。它的核心价值在于强制模型输出结构化 Action，避免自由发挥导致的不可控。我实测过，同样一个复杂查询，用 ReACT Agent 的成功率比普通 ChatEngine 高 3.2 倍，且失败案例中 92% 都能准确定位到是哪一步 Action 执行失败——这对运维太友好了。

这三者不是非此即彼，而是像乐高一样组合：一个生产级 Agent，通常是 ReACT Agent 作为主框架，里面注册了多个 FunctionTool（包括 Agentic RAG 的检索 Tool），所有 Tool 的执行结果又通过 CallbackManager 统一记录到日志和监控系统里。

3. 核心细节解析与实操要点

3.1 Function Calling 的底层机制与安全边界

Llama Index 的 FunctionTool 本质是把 Python 函数映射成 LLM 可理解的 JSON Schema。但这里有个极易被忽略的坑： Schema 生成默认不校验参数类型安全性。 比如你写了一个函数：

def get_user_profile(user_id: int) -> dict:
    """Get user profile by ID"""
    return db.query("SELECT * FROM users WHERE id = %s", user_id)

Llama Index 会自动生成 "user_id": {"type": "integer"} 的 Schema。但如果 LLM 返回 "user_id": "abc" ，它不会报错，而是把字符串 "abc" 直接传给函数——然后你的数据库查询就崩了。我的解决方案是在 @tool 装饰器里加一层强校验：

from llama_index.core.tools import FunctionTool
from pydantic import BaseModel, Field
from typing import Any

class UserProfileInput(BaseModel):
    user_id: int = Field(..., description="User's numeric ID, must be integer")

def get_user_profile(input: UserProfileInput) -> dict:
    # 此处 input.user_id 已确保是 int 类型
    return db.query("SELECT * FROM users WHERE id = %s", input.user_id)

tool = FunctionTool.from_defaults(
    fn=get_user_profile,
    name="get_user_profile",
    description="Get user profile by ID. Input must be a valid integer.",
    return_direct=False
)

这样，当 LLM 返回非整数时，Pydantic 会在调用前就抛出 ValidationError ，Agent 会收到明确错误提示并重试，而不是让下游服务崩溃。这是我在金融项目里踩过三次坑后总结的硬性规范：所有对外暴露的 Tool，输入参数必须用 Pydantic Model 显式定义，且 Field 中的 description 必须写清楚业务约束（比如“必须是 6 位数字”“不能包含特殊字符”），因为 LLM 会读取这个 description 来决定怎么填参数。

3.2 Agentic RAG 的知识库构建与检索增强策略

Agentic RAG 的威力不在“RAG”本身，而在“Agentic”——即让模型控制检索时机和粒度。但前提是你的知识库得经得起多跳查询。我见过太多团队把 PDF 全文切块扔进向量库，结果模型一问“第 3 章第 2 节提到的阈值是多少”，检索就失效。根本原因是 块粒度与语义完整性不匹配。 我的实践是三级切分：

一级：按逻辑单元切分 （不是按字数）。比如合同文本，按“条款”切分；设备手册，按“故障代码”切分；研发文档，按“功能模块”切分。每个块有唯一 ID 和 section_type 元数据（如 "section_type": "payment_clause" ）。
二级：为每个块生成结构化摘要 。不用 LLM，用规则提取：
- 合同条款块：提取 parties , effective_date , payment_terms , penalty_rate 字段；
- 故障手册块：提取 error_code , symptom , possible_causes , resolution_steps 字段。
  这些字段存为 metadata ，检索时可精准过滤。
三级：向量嵌入前做语义清洗 。PDF 解析常带页眉页脚、乱码、表格符号。我的清洗 pipeline 是：
- 用 pdfplumber 提取纯文本，保留换行符；
- 用正则删除连续空格、页码（ \d+\s*\/\s*\d+ ）、页眉（ ^.*?Company Name.*?$ ，多行模式）；
- 对表格区域，不转文本，而是提取表头和第一行数据，生成描述性文本如“表：泵型号与额定功率对照表，含型号 A100（15kW）、B200（22kW）等 7 行数据”。

这样构建的知识库，Agentic RAG 才能可靠工作。比如用户问：“B200 型号泵的额定功率是多少？”，模型会先调用 search_knowledge(section_type="spec_table", keyword="B200") ，拿到那个表格块后，再调用 extract_from_table(block_id="xxx", target_column="rated_power", row_key="B200") —— 第二个 Tool 是我专门写的，它只负责从已知表格块里精确提取，不碰向量检索。这种分工让每一步都可控。

3.3 ReACT Agent 的 Prompt 工程与思维链约束

ReACT 的 Prompt 不是越长越好，关键是 用结构化指令压缩模型的自由度。 我的黄金模板只有三段：

You are a precise task-solving agent. Your job is to answer the user's question by using available tools. 
You must follow this strict format:

Thought: [Your reasoning about what to do next]
Action: [One of the available tool names]
Action Input: [Valid JSON object matching the tool's schema]
Observation: [Result from the tool, will be provided after your action]

Repeat until you can answer the question.

Available tools:
{tool_desc}

Question: {input}

注意三个关键点：

Thought 必须可验证 ：禁止出现“我觉得用户可能想知道…”这种模糊表述。必须是“用户问的是华东区泵的故障率，我需要先获取华东区泵的设备清单”——这里“华东区”“泵”“设备清单”都是可从问题中明确提取的实体。
Action 名称必须完全匹配 ：我强制要求所有 Tool 名用 snake_case，且在 tool_desc 里写死。比如 search_pump_equipment ，绝不允许 LLM 输出 search_equipment_for_pumps ，否则调用失败。
Action Input 必须是合法 JSON ：我在 ReActAgent 初始化时传入 max_iterations=6 ，并设置 callback_manager 记录每次输出。如果某次输出的 Action Input 解析失败（比如少了个逗号），Agent 会自动重试，但最多 3 次，超限就 fallback 到简单 ChatEngine 回答，并记录告警。

这个模板在我所有项目中稳定运行超过 18 个月。最深的体会是： 给 LLM 的自由度越小，它的可靠性越高。 不是不让它思考，而是把思考路径框定在“实体识别→工具选择→参数填充”这个闭环里。

4. 实操过程与核心环节实现

4.1 环境搭建与依赖版本锁定

别信网上那些“pip install llama-index”就能跑的教程。Llama Index 对依赖版本极其敏感，尤其是 llama-index-core 、 llama-index-llms-openai 、 llama-index-embeddings-openai 这三个包，版本不匹配会导致 FunctionTool Schema 生成异常或 ReActAgent 无法解析 Action。我的生产环境锁定如下（2024 年底验证有效）：

包名	版本	说明
`llama-index-core`	`0.10.45`	核心框架，所有 Agent 和 Tool 的基类在此
`llama-index-llms-openai`	`0.10.32`	OpenAI LLM 接口，必须与 core 版本严格对应
`llama-index-embeddings-openai`	`0.10.28`	Embedding 接口，版本错配会导致向量维度错误
`openai`	`1.35.10`	OpenAI 官方 SDK，新版 1.40+ 有 breaking change
`pydantic`	`2.7.1`	用于 Tool 输入校验，v2.x 是必须的

安装命令必须用 pip install 加版本号，禁用 pip install llama-index[all] —— 这个 meta 包会拉取一堆用不到的依赖，且版本不可控。我用的完整初始化脚本：

# 创建干净虚拟环境
python -m venv ./agent_env
source ./agent_env/bin/activate  # Linux/Mac
# agent_env\Scripts\activate  # Windows

# 逐个安装锁定版本
pip install "llama-index-core==0.10.45"
pip install "llama-index-llms-openai==0.10.32"
pip install "llama-index-embeddings-openai==0.10.28"
pip install "openai==1.35.10"
pip install "pydantic==2.7.1"
pip install "pypdf==4.2.0"  # pdfplumber 依赖，新版有兼容问题

提示： pypdf 版本必须锁死在 4.2.0 。 4.3.0 会触发 pdfplumber 的 Page 对象属性变更，导致我的文档解析 Tool 崩溃。这个坑我花了两天 debug 才定位到。

4.2 构建一个可调试的 ReACT Agent 实例

下面是一个真实可用的、带完整错误处理和日志的 ReACT Agent 示例，目标是做一个“合同条款比对助手”：

import logging
from llama_index.core.agent import ReActAgent
from llama_index.core.tools import FunctionTool
from llama_index.llms.openai import OpenAI
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.core.callbacks import CallbackManager, TokenCountingHandler
from pydantic import BaseModel, Field

# 1. 定义 Tool：从知识库检索合同条款
class ContractSearchInput(BaseModel):
    contract_id: str = Field(..., description="Contract ID, e.g., 'CON-2024-001'")
    clause_type: str = Field(..., description="Clause type, e.g., 'payment', 'termination', 'liability'")

def search_contract_clause(input: ContractSearchInput) -> str:
    """Search specific clause in a contract."""
    # 实际项目中这里会查向量库或数据库
    # 为演示，返回模拟结果
    mock_data = {
        ("CON-2024-001", "payment"): "Payment due within 30 days of invoice date. Late fee: 1.5% per month.",
        ("CON-2024-002", "payment"): "Net 45 days. No late fee specified."
    }
    return mock_data.get((input.contract_id, input.clause_type), "Clause not found.")

contract_search_tool = FunctionTool.from_defaults(
    fn=search_contract_clause,
    name="search_contract_clause",
    description="Search a specific clause (e.g., payment, termination) in a given contract by ID.",
    return_direct=False
)

# 2. 定义 Tool：对比两个条款文本
class CompareClausesInput(BaseModel):
    text_a: str = Field(..., description="First clause text")
    text_b: str = Field(..., description="Second clause text")

def compare_clauses(input: CompareClausesInput) -> str:
    """Compare two contract clauses and highlight key differences."""
    # 真实项目用 difflib.SequenceMatcher 或专用 NLP 模型
    if "30 days" in input.text_a and "45 days" in input.text_b:
        return "Key difference: Payment term is 30 days vs 45 days."
    elif "1.5%" in input.text_a and "No late fee" in input.text_b:
        return "Key difference: Late fee is 1.5% per month vs none specified."
    else:
        return "No significant differences found."

compare_tool = FunctionTool.from_defaults(
    fn=compare_clauses,
    name="compare_clauses",
    description="Compare two contract clauses and output key differences in plain English.",
    return_direct=False
)

# 3. 初始化 LLM 和回调管理器（用于日志和 token 统计）
llm = OpenAI(model="gpt-4-turbo", temperature=0.1)
token_counter = TokenCountingHandler()
callback_manager = CallbackManager([token_counter])

# 4. 构建 ReACT Agent
agent = ReActAgent.from_tools(
    tools=[contract_search_tool, compare_tool],
    llm=llm,
    callback_manager=callback_manager,
    verbose=True,  # 关键！开启详细日志，方便调试
    max_iterations=6,
    # 自定义 system prompt，强化结构化输出
    system_prompt=(
        "You are a contract analysis expert. Always use tools to fetch data before answering. "
        "Never guess or fabricate clause details. If a tool returns 'not found', say so explicitly."
    )
)

# 5. 测试查询
response = agent.chat("Compare payment terms between contract CON-2024-001 and CON-2024-002.")
print(str(response))
print(f"Total tokens used: {token_counter.total_llm_token_count}")

这段代码的关键实操细节：

verbose=True 是调试生命线 ：它会打印出每一步的 Thought 、 Action 、 Action Input 、 Observation ，让你一眼看出模型在哪一步卡住。线上环境可以关掉，但开发阶段必须开。
system_prompt 里那句“Never guess or fabricate”不是废话 ：我测试过，不加这句，LLM 在第一次检索失败后，会直接编造一个“30天付款”的答案；加了之后，它会老实说“条款未找到，请确认合同ID”。
return_direct=False 的含义 ：表示 Tool 的返回值要喂给 LLM 再加工，而不是直接返回给用户。这对 compare_clauses 很重要——它返回的是差异分析，但最终回答要整合成自然语言，所以必须让 LLM 过一遍。

运行结果会是清晰的多步日志：

Thought: I need to retrieve the payment clause for contract CON-2024-001 first.
Action: search_contract_clause
Action Input: {"contract_id": "CON-2024-001", "clause_type": "payment"}
Observation: Payment due within 30 days of invoice date. Late fee: 1.5% per month.
Thought: Now I need the payment clause for contract CON-2024-002.
Action: search_contract_clause
Action Input: {"contract_id": "CON-2024-002", "clause_type": "payment"}
Observation: Net 45 days. No late fee specified.
Thought: I have both clauses, now I can compare them.
Action: compare_clauses
Action Input: {"text_a": "Payment due within 30 days...", "text_b": "Net 45 days..."}
Observation: Key difference: Payment term is 30 days vs 45 days.
Thought: I can now answer the user's question.
Answer: The payment terms differ: CON-2024-001 requires payment within 30 days with a 1.5% monthly late fee, while CON-2024-002 specifies net 45 days with no late fee mentioned.

这就是 Agentic 工作流的透明感——每一步都可追溯，每一个错误都可定位。

4.3 Agentic RAG 的检索增强实战：让模型学会“分步查”

传统 RAG 的 VectorStoreIndex 是静态的，Agentic RAG 的核心是把它变成一个可调用的 Tool。但直接把 index.as_retriever() 包进 FunctionTool 会出问题：检索结果是 NodeWithScore 对象，LLM 无法直接理解。我的解决方案是封装一层“语义路由器”：

from llama_index.core.retrievers import VectorIndexRetriever
from llama_index.core import VectorStoreIndex

# 假设你已经构建好 index
# index = VectorStoreIndex.from_documents(documents, embed_model=embed_model)

class SemanticRetrieverInput(BaseModel):
    query: str = Field(..., description="Search query in natural language")
    top_k: int = Field(3, description="Number of results to return, default 3")
    filter_section: str = Field("", description="Optional section filter, e.g., 'payment_clause'")

def semantic_retrieve(input: SemanticRetrieverInput) -> str:
    """Retrieve relevant nodes from vector index with optional filtering."""
    retriever = VectorIndexRetriever(
        index=index,
        similarity_top_k=input.top_k,
        # 如果有 filter_section，加 metadata 过滤
        filters=None if not input.filter_section else {
            "section_type": input.filter_section
        }
    )
    
    nodes = retriever.retrieve(input.query)
    # 将 NodeWithScore 转为易读文本
    results = []
    for node in nodes:
        # 提取关键元数据 + 文本片段
        meta = node.node.metadata
        snippet = node.node.text[:200] + "..." if len(node.node.text) > 200 else node.node.text
        results.append(f"[ID: {meta.get('id', 'N/A')}] {snippet} (Score: {node.score:.3f})")
    
    return "\n".join(results)

retriever_tool = FunctionTool.from_defaults(
    fn=semantic_retrieve,
    name="semantic_retrieve",
    description="Retrieve relevant documents from knowledge base using semantic search. Use 'filter_section' to narrow down by section type.",
    return_direct=False
)

这个 Tool 的威力在于 filter_section 参数。当模型看到用户问“对比付款条款”，它会自动在 Action Input 里加上 "filter_section": "payment_clause" ，从而避开“违约责任”“保密条款”等无关块。这比在 Prompt 里写“请只检索付款相关的内容”可靠 10 倍——因为后者依赖 LLM 理解，前者是硬编码的数据库过滤。

我在线上环境还加了熔断机制：如果 semantic_retrieve 调用耗时超过 2 秒，或返回空结果超过 2 次，Agent 会自动切换到 fallback_search Tool（基于关键词的 BM25 检索），保证服务不降级。这部分代码没放进来，但它是生产可用的底线。

5. 常见问题与排查技巧实录

5.1 典型问题速查表

问题现象	可能原因	排查步骤	解决方案
Agent 卡在第一步，反复输出 `Thought: I need to...` 但不执行 `Action`	LLM 没理解可用 Tool，或 `system_prompt` 约束力不足	1. 检查 `tool_desc` 是否完整打印；2. 用 `verbose=True` 看 LLM 是否识别出 Tool 名；3. 检查 `system_prompt` 是否包含“Always use tools”	在 `system_prompt` 开头加一句：“You MUST use one of the following tools: [tool1], [tool2]. Do not answer without using a tool.”
`Action Input` 解析失败，报 `JSON decode error`	LLM 输出了非法 JSON（如中文逗号、多余空格、未闭合引号）	1. 用 `print(agent.last_output)` 查看原始输出；2. 检查 `Action Input` 字段是否包含 `\n` 或 `"` 未转义	在 `ReActAgent` 初始化时加 `output_parser=CustomOutputParser()` ，用正则预清洗 JSON 字符串
检索结果质量差，返回无关文档	向量库构建时未清洗噪声，或嵌入模型与业务语义不匹配	1. 用 `index.docstore.docs.values()` 抽样检查原始块内容；2. 用 `embed_model.get_text_embedding("payment term")` 看向量是否合理	重做知识库：① 用 `pdfplumber` 替代 `PyPDF2` ；② 嵌入模型换 `text-embedding-3-small` （比 `ada-002` 更准）；③ 块大小设为 512 token，而非固定 100 字
Agent 调用 Tool 后， `Observation` 返回空或乱码	Tool 函数内部异常未被捕获，或返回类型不匹配	1. 在 Tool 函数里加 `try/except` 打印完整 traceback；2. 检查 `return_direct` 设置是否与预期一致	所有 Tool 函数必须用 `try/except Exception as e: return f"Error: {str(e)}"` 包裹； `return_direct` 设为 `False` 除非 Tool 返回已是最终答案
Token 消耗爆炸，单次查询超 10k token	`verbose=True` 日志过多，或 `max_iterations` 过大导致循环	1. 查看 `token_counter` 输出；2. 检查 `max_iterations` 是否设为过高（建议 4-6）	线上环境关 `verbose` ；设 `max_iterations=4` ；在 `system_prompt` 加“Keep answers concise, under 200 words”

5.2 我踩过的三个血泪坑及独家修复方案

坑一：LLM 在 Action Input 里偷偷加注释

有一次，模型输出：

{
  "contract_id": "CON-2024-001",
  "clause_type": "payment"
  // This is the first contract
}

后面这个 // 注释导致 json.loads() 直接崩溃。网上方案是换 json5 库，但 json5 会吃掉所有注释，导致后续调试看不到上下文。我的修复是写一个轻量 safe_json_loads ：

import re
import json

def safe_json_loads(s: str) -> dict:
    """Load JSON string, removing C-style comments first."""
    # 移除 // 行注释
    s = re.sub(r'//.*$', '', s, flags=re.MULTILINE)
    # 移除 /* */ 块注释
    s = re.sub(r'/\*.*?\*/', '', s, flags=re.DOTALL)
    # 移除尾部逗号（JSON 不允许，但 LLM 常加）
    s = re.sub(r',\s*}', '}', s)
    s = re.sub(r',\s*]', ']', s)
    return json.loads(s)

然后在 ReActAgent 的 output_parser 里用它替代原生 json.loads 。这个函数现在是我所有 Agent 的标配。

坑二：向量检索的“幻觉放大器”效应

Agentic RAG 最危险的不是检不全，而是检错。比如用户问“泵的额定功率”，向量库返回了“电机的额定电压”文档（因为“额定”这个词相似）。模型看到这个错误结果，会基于它继续推理，导致错误滚雪球。我的应对是双保险：

检索后置校验 ：在 semantic_retrieve Tool 里，对每个返回的 NodeWithScore ，用一个小的 text-embedding-3-small 模型计算 query 和 node.text 的余弦相似度，如果低于 0.6，直接过滤掉。
Action 前置确认 ：在 system_prompt 末尾加一句：“Before calling a tool, verify that the parameters match the user's question EXACTLY. If unsure, call 'clarify_question' tool first.” 然后注册一个 clarify_question Tool，它只返回“请确认：您想查询 [contract_id] 的 [clause_type] 条款吗？是/否”。

坑三：生产环境的 Token 泄露风险

verbose=True 会把 Action Input 和 Observation 全打到日志，里面可能含客户合同 ID、设备序列号等敏感信息。我的方案是日志脱敏中间件：

import logging
from llama_index.core.callbacks import CallbackManager, BaseCallbackHandler

class SensitiveDataFilter(logging.Filter):
    def filter(self, record):
        if hasattr(record, 'msg') and isinstance(record.msg, str):
            # 替换常见敏感模式
            record.msg = re.sub(r'CON-\d{4}-\d{3}', 'CON-XXXX-XXX', record.msg)
            record.msg = re.sub(r'SN-[A-Z0-9]{12}', 'SN-XXXXXXXXXXXX', record.msg)
        return True

# 初始化 logger 时添加 filter
logger = logging.getLogger("llama_index")
logger.addFilter(SensitiveDataFilter())

这个 filter 会自动清洗日志，既保调试信息，又防泄露。它现在是我所有金融、医疗类项目的强制规范。

6. 生产部署与性能优化要点

6.1 如何让 Agent 在 2 秒内完成一次完整推理？

线上 SLA 要求首字节响应 < 2 秒，但 ReACT Agent 默认可能跑满 6 次迭代，每次 LLM 调用 300ms，光网络延迟就 1.8 秒。我的优化是三层降级：

LLM 层降级 ： gpt-4-turbo 用于 Thought 和 Answer 生成，但 Action 和 Action Input 生成用 gpt-3.5-turbo-instruct （快 3 倍，便宜 10 倍）。用 llm 参数区分：

# 主 LLM 用于复杂推理
main_llm = OpenAI(model="gpt-4-turbo", temperature=0.1)

# 轻量 LLM 用于结构化输出
action_llm = OpenAI(model="gpt-3.5-turbo-instruct", temperature=0.0)

# 在 ReActAgent 里，用 action_llm 生成 Action，main_llm 生成最终 Answer

Tool 层异步化 ：所有 IO 密集型 Tool（数据库查询、API 调用）用 asyncio 封装，Agent Runner 改用 AsyncReActAgent 。这样 3 个 Tool 可以并发执行，而不是串行。
缓存层前置 ：对高频查询（如“付款条款是什么”），用 Redis 缓存 (contract_id, clause_type) → text 映射。在 search_contract_clause Tool 开头加缓存检查，命中率超 65%。

这三招下来，P95 响应时间从 2.1 秒压到 1.38 秒，且成本降低 42%。

6.2 监控与可观测性：让 Agent 不再是黑盒

没有监控的 Agent 就是定时炸弹。我的最小可行监控集：

Action 级日志 ：记录每次 Action 名、 Action Input （脱敏后）、 Observation 长度、耗时、成功/失败。用 ELK 存储，Grafana 看板。
Token 消耗仪表盘 ：按 Action 分类统计 token，快速发现哪个 Tool 调用最“费钱”。比如 semantic_retrieve 如果平均消耗 1200 token，说明块太大，要切小。
Fallback 触发告警 ：当 max_iterations 耗尽或 clarify_question 被调用超 3 次/小时，企业微信机器人自动推送：“Agent 在合同比对场景触发降级，可能需优化检索策略”。