当然,我很高兴帮你详细理解这篇博客《Agent的“编排之战”|我开源了!》。这篇文章主要讨论了当前大模型(如GPT-4)在企业级“编排型”Agent领域的应用与发展,特别是在微软和Salesforce之间的竞争背景下,作者老于介绍了他开源的评估体系“4-One Bench”。以下是对博客内容的详细解析:
1. 背景介绍
问题示例
博客一开始提出了一个具体的问题:
“原告是安利股份的案件审理法院是哪家法院?”
这个问题涉及多个数据源和处理步骤,如何将其转化为大模型可以执行的指令序列(Routine)是关键。作者通过一系列数据操作步骤展示了如何处理这个问题:
- 公司简称:从“安利股份”获取上市公司的基本信息。
- 公司名称:从基本信息中提取公司名称,进而获取法律文书信息。
- 过滤信息:筛选出原告等于公司名称的法律文书。
- 法院代字:从法律文书中提取法院代字,并获取对应的法院地址代字信息。
- 法院名称:最终获取法院的名称。
这些步骤展示了一个复杂问题如何被拆解为多个可执行的指令序列,以便大模型能够理解并处理。
2. “4-One Bench”评估体系
引入“4-One Bench”
为了评估大模型在生成这些指令序列(Routine Gen)方面的能力,作者开发并开源了“4-One Bench”。这是一个基于他在《第三届琶洲算法大赛-GLM法律行业大模型挑战赛道》中取得全国第11名的经验,构建的一套评估体系。
体系特点
“4-One Bench”具备以下几个核心特点:
- Generator-Verifier模式:采用生成器和验证器的架构,确保生成的指令序列的准确性和有效性。
- One-Query:模拟日常商业实践中的“一句话任务”场景,涉及单项或多项企业资源的编排。
- One-Knowledge Graph:基于任务,使用描述数据资产关系的知识图谱指导大模型自动编排企业数据资产。用户也可以根据自身需求定制知识图谱内容。
- One-Shot:重点考察大模型一次性成功生成Routine的概率,反映其在实际商业环境中的响应速度和准确率。
- One-Syntax:使用自定义的文法将任务结构化为指令,指令可映射为函数以调用企业数据资产。
3. 微软与Salesforce的“编排型”Agent竞争
竞争态势
微软和Salesforce正在激烈竞争“编排型”Agent的市场:
- 微软:发布了10个Agent,直接挑战Salesforce的Agentforce战略。
- Salesforce:Salesforce的CEO公开表示微软的Agent“Just doesn’t work”(根本不行)。
尽管两家公司在公开场合互相批评,但在商业化方向上,两者的目标是一致的,都瞄准了“编排型”Agent。
编排型Agent的目标
编排型Agent旨在为企业提供一种类似于云计算中的IaaS(基础设施即服务)和PaaS(平台即服务)的编排体系。其终极目标是根据任务需求,自动编排和执行企业的数据资产(包括系统、API、结构化和非结构化数据、人力资源等),以达成业务目标。
实际案例
微软在AI Tour上展示了一个麦肯锡EM Agent的案例,该Agent基于预设的Routine,能够解析客户的邮件为销售机会,并调度CRM(客户关系管理)和HR(人力资源)系统,以安排合适的合伙人跟进销售机会。
4. 编排型Agent的“胜负手”——Routine Gen
关键因素
编排型Agent的核心竞争力在于Routine Generation(Routine Gen),即根据任务需求准确生成指令序列的能力。
当前挑战
目前,微软和Salesforce的Routine Gen主要依赖手工编制的Routine。这种方式在现阶段是可行的,但随着企业规模扩大,Agent数量达到百万甚至数亿时,手工维护Routine将成为巨大的挑战。因此,依赖大模型自动化生成Routine成为必然趋势。
大模型的潜力
虽然OpenAI的GPT-4等大模型已经展现出一定的自动化Routine Gen能力,但在商业领域的严谨性要求下,编排型Agent的全面胜利尚未到来。业界需要一个持续评估大模型Routine Gen能力的体系,这正是“4-One Bench”所填补的空白。
5. “4-One Bench”详细介绍
系统架构
“4-One Bench”采用Generator-Verifier模式,具备以下特色:


2401

被折叠的 条评论
为什么被折叠?



