Intel实验室开源RAG优化工具RAG-FiT,获得769 Star

Intel实验室开源RAG优化工具RAG-FiT,获得769 Star

Intel实验室开源的RAG优化工具RAG-FiT,目前在GitHub获得769 Star:

正文顶部截图

README区域截图

RAG-FiT是一个用于提升大语言模型使用外部信息能力的工具库,通过在特制的RAG增强数据集上微调模型实现优化。该工具库支持创建训练所需数据,使用参数高效微调方法训练模型,还可通过多种RAG专用指标衡量性能提升效果。工具库采用模块化设计,工作流可通过配置文件自定义。该项目前称RAG Foundry。

RAG-FiT框架支持快速原型设计和多种RAG设置的实验,包括数据选择过滤、处理、检索、排序、查询操作、提示生成、训练、推理、输出处理和评估。工具库包含四个模块:数据集创建、训练、推理和评估。

数据集创建模块生成数据集,存储RAG交互信息,用于RAG训练和推理。RAG交互信息包括数据集加载、列标准化、数据聚合、外部工具信息检索、API集成、基于模板的提示创建等预处理操作。数据以独立于模型的统一输入输出格式保存,附带所有字段和元数据。

训练模块使用参数高效微调方法和TRL,用户可在增强数据集上训练任意模型。训练针对补全内容进行,训练后的模型可推送至HF Hub。

推理模块使用增强数据集,通过训练或未训练的大语言模型生成预测结果。

评估模块对推理模块生成的输出运行评估。用户可提供要运行的指标列表,可轻松实现自定义指标。当前支持的指标包括EM、F1、ROUGE、BERTScore、Deepeval、RAGAS、HF evaluate和分类。指标分为本地和全局两种,本地指标在每个示例上运行,全局指标在整个数据集上运行。指标可利用数据集中的任意特征,不限于输入和输出文本。

四个模块对应顶层脚本:processing.py、training.py、inference.py和evaluation.py。调用格式为python SCRIPT options…。

工具库使用Hydra配置工具,支持分层配置,可通过CLI轻松覆盖数值,支持远程运行多个任务。采用配置即代码的方法,可根据配置实例化Python类。

每个模块在configs文件夹下都有默认配置。可通过参数覆盖配置文件,也可单独覆盖特定关键字。

开源地址:https://github.com/IntelLabs/RAGFoundry


安装方法

克隆仓库后运行:

pip install -e .

可选包可通过以下命令安装:

pip install -e .[haystack]
pip install -e .[deepeval]

快速开始

完整的端到端示例可参考PubmedQA教程,路径为./docs/pubmed.md。

如需复现论文中使用ASQA数据集的实验,可参考configs/paper文件夹中的配置。

d。

如需复现论文中使用ASQA数据集的实验,可参考configs/paper文件夹中的配置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值