微软PIKE-RAG:多层次多粒度体系化智能化的知识库构建方案

微软PIKE-RAG:多层次多粒度体系化智能化知识库构建方案

笔者注:PIKE-RAG是微软亚洲研究院的一个知识库设计和构建工作,高度体系化,里面拆解问题、单点能力设计、整体流程设计等各方面都有比较大的借鉴价值,因而写这篇文章记录一下

作者认为传统的RAG大致有3个方面的问题:

  1. 多样化的数据源(Knowledge source diversity):因而也需要知识库具备存储多样化数据(即多模态)和推理的能力
  2. 特定领域泛化缺陷(Domain specialization deficit):知识库对问题的关键部分会给出不准确或者不完整的知识,导致最终回复效果违反基本原理
  3. 架构同质化(One-size-fits-all):通过同一套技术框架解决不同类型问题,但RAG的真实场景下需要多样化的能力,特别是提取、理解、组织领域知识和基本原理的能力

笔者注:原文中的rationale本意指的是“基本原理”、“根本原因”的意思,论文的上下文中,知识库可以提供召回的原因其实意味着它在通过推理选出要找回的内容,推理过程文本构成了rationale。

故而研究团队提出了specialized Knowledge and Rationale Augmented Generation (PIKE-RAG),名字略显复杂,意思是知识进行特殊处理且增强了基本原理的生成模式。

问题分类定义

作者梳理了影响RAG任务的关键因素(笔者表示完全赞同):

  • 知识的相关性和完整性(Relevance and Completeness of Knowledge)
  • 知识提取的复杂度(Complexity of Knowledge Extraction)
  • 理解和推理的深度(Depth of Understanding and Reasoning)
  • 知识蒸馏的有效性(Effectiveness of Knowledge Utilization)

笔者注:如果知识蒸馏让比较难理解的话,可以等价替换为知识总结,意思大致相同。
在这里插入图片描述
如上图,研究团队首先将RAG预期要解决的问题分为以下4类,其中联系与推理问题还可以继续向下细分:

  1. 事实问题(Factual Questions)
  2. 联系与推理问题(Linkable-Reasoning Questions)
    1. 关联性问题(Bridging Questions)
    2. 定量问题(Quantitative Questions)
    3. 比较问题 (Comparative Questions)
    4. 总结问题(Summarizing Questions)
  3. 预测性问题(Predictive Questions)
  4. 创造性问题(Creative Questions)

四类问题中,事实问题在知识库语料显式存在答案;联系与推理问题在语料库中隐式存在答案,需要将检索到的显式知识关联一下才能得出答案;预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值