Agent指令编排

最新推荐文章于 2026-05-07 06:00:00 发布

原创

最新推荐文章于 2026-05-07 06:00:00 发布 · 1.3k 阅读

标签

#python

当然，我很高兴帮你详细理解这篇博客《Agent的“编排之战”｜我开源了！》。这篇文章主要讨论了当前大模型（如GPT-4）在企业级“编排型”Agent领域的应用与发展，特别是在微软和Salesforce之间的竞争背景下，作者老于介绍了他开源的评估体系“4-One Bench”。以下是对博客内容的详细解析：

1. 背景介绍

问题示例

博客一开始提出了一个具体的问题：

“原告是安利股份的案件审理法院是哪家法院？”

这个问题涉及多个数据源和处理步骤，如何将其转化为大模型可以执行的指令序列（Routine）是关键。作者通过一系列数据操作步骤展示了如何处理这个问题：

公司简称：从“安利股份”获取上市公司的基本信息。
公司名称：从基本信息中提取公司名称，进而获取法律文书信息。
过滤信息：筛选出原告等于公司名称的法律文书。
法院代字：从法律文书中提取法院代字，并获取对应的法院地址代字信息。
法院名称：最终获取法院的名称。

这些步骤展示了一个复杂问题如何被拆解为多个可执行的指令序列，以便大模型能够理解并处理。

2. “4-One Bench”评估体系

引入“4-One Bench”

为了评估大模型在生成这些指令序列（Routine Gen）方面的能力，作者开发并开源了“4-One Bench”。这是一个基于他在《第三届琶洲算法大赛-GLM法律行业大模型挑战赛道》中取得全国第11名的经验，构建的一套评估体系。

体系特点

“4-One Bench”具备以下几个核心特点：

Generator-Verifier模式：采用生成器和验证器的架构，确保生成的指令序列的准确性和有效性。
One-Query：模拟日常商业实践中的“一句话任务”场景，涉及单项或多项企业资源的编排。
One-Knowledge Graph：基于任务，使用描述数据资产关系的知识图谱指导大模型自动编排企业数据资产。用户也可以根据自身需求定制知识图谱内容。
One-Shot：重点考察大模型一次性成功生成Routine的概率，反映其在实际商业环境中的响应速度和准确率。
One-Syntax：使用自定义的文法将任务结构化为指令，指令可映射为函数以调用企业数据资产。