[企业AI落地] 用 RAGFlow 给公司制度和合同资料做可溯源问答，先跑通一个小型内网知识库

原创于 2026-06-23 01:22:53 发布 · 383 阅读

6 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #企业AI #知识库 #OpenWebUI #Dify

企业级AI落地实战专栏头图

很多公司做内部知识库问答时，真正卡住的不是能不能接上大模型，而是员工问完之后不敢用答案：制度出处在哪里，合同条款来自哪一版，SOP 步骤有没有被模型编错，都说不清楚。

如果只是做一个能聊天的机器人，门槛并不高；但如果要让它回答制度、合同、SOP 这类内部资料，就必须把“答案能不能追溯到原文”作为第一版验收目标。

这篇从一个小型试点开始：用开源 RAGFlow 搭一个公司制度和合同资料问答库，先跑通文档导入、问题测试、引用检查和人工复核这几个环节。

这不是要一次性建设完整企业知识中台，而是先做一个可验证的小闭环：选一类资料，部署一个工具，导入一批文档，准备一组测试问题，检查答案是否能引用原文，再决定是否扩大范围。

为什么这类场景适合先用 RAGFlow 试一版

RAGFlow 的定位是开源 RAG 引擎，重点不只是“把文档放进向量库”，而是围绕复杂文档解析、知识抽取、检索增强和引用依据来做问答。

这正好适合企业内部常见的资料场景。

比如：

资料类型	常见问题	普通问答容易出的问题
公司制度	报销、请假、加班、入职流程	回答像是对的，但说不清来自哪条制度
合同模板	付款周期、违约责任、交付范围	容易把不同合同条款混在一起
项目 SOP	交付步骤、验收材料、故障处理	找得到答案，但缺少版本和上下文
产品手册	功能说明、限制条件、配置步骤	摘要过度，遗漏关键前提
客服 FAQ	常见问题、处理口径	答案太泛，无法定位原始依据

如果企业只是想做“聊天机器人”，很多工具都能做；但如果目标是“回答必须能追溯到原文”，RAGFlow 这种强调文档理解和引用依据的工具更值得单独试一版。

先别全量导入，第一版只选一个小场景

我建议第一版不要把所有制度、合同和项目资料都扔进去。范围越大，越难判断问题到底出在文档质量、切分方式、模型能力还是检索配置。

更稳的第一版可以这样选：

试点场景	推荐资料量	适合原因
员工制度问答	10 到 30 份制度 PDF/Word	问题稳定，风险可控，便于验证引用
合同条款查询	5 到 20 份脱敏合同模板	能测试条款定位和上下文引用
实施 SOP 查询	10 到 50 份交付文档	能测试步骤类问答和版本差异
产品手册问答	3 到 10 份完整手册	能测试长文档章节识别

如果团队第一次做，我更建议从“员工制度问答”或“脱敏合同模板查询”开始。它们的业务边界清楚，问题容易设计，答案也更容易人工判断对错。

一个小型内网知识库的最小部署形态

第一版不需要把它做成复杂系统。可以先按这几层准备：

层级	作用	第一版做法
文档层	放制度、合同、SOP、手册	先准备一批脱敏测试文档
RAGFlow 服务层	解析、切分、索引、问答	使用官方推荐的 Docker 部署方式
模型层	负责生成回答和向量化	可接云模型，也可接本地模型，先以可用为准
访问层	给内部测试人员使用	先小范围开放，不接全员入口
验收层	判断答案是否可用	用固定问题集逐条测试

这里最重要的不是“部署命令写得多漂亮”，而是不要跳过验收层。很多内部知识库失败，不是因为服务没跑起来，而是因为没人定义“什么叫回答可用”。

文档准备比部署更重要

RAGFlow 能处理复杂文档，但这不意味着文档可以完全不整理。

第一版资料至少要做这几件事：

删除明显过期或废弃的文件。
文件名加上版本和日期，例如“员工报销制度_2025版”。
合同、客户资料先做脱敏，不要把真实客户名称、金额、账号、个人信息直接放进测试库。
同一类文档不要混入太多历史版本，除非你专门要测试版本差异。
对扫描版 PDF 先确认 OCR 效果，否则后面问答不准，很可能不是 RAGFlow 的问题，而是原文根本没被正确识别。

我更推荐先建一个测试目录：

文件夹	放什么
01_制度原文	原始制度文档
02_脱敏合同	脱敏后的合同模板
03_测试问题	人工准备的问题集
04_预期答案	人工整理的参考答案和依据段落
05_错误样例	每次测试发现的错误回答

有了这个目录，后面不管换 RAGFlow 配置、换模型，还是调整切分方式，都能复用同一套测试材料。

第一版测试问题要怎么设计

不要只问“公司的报销制度是什么”这种大问题。大问题容易得到泛泛答案，无法判断系统是否真的理解了文档。

更好的问题应该覆盖几类：

问题类型	示例
事实查找	差旅住宿标准是多少？
条件判断	试用期员工是否可以申请年假？
流程步骤	合同审批需要经过哪些节点？
例外情况	发票丢失时怎么处理？
多文档对比	新旧两版报销制度有什么变化？
引用追溯	这条回答依据的是哪份制度、哪一段？

如果系统只能答事实查找，不能处理条件判断和引用追溯，那么它还不适合作为企业内部正式知识库。最多只能算资料检索助手。

验收时重点看四件事

我会把第一版验收分成四个维度。

第一，答案是否命中原文。

不是看回答像不像人话，而是看它有没有抓到原文里的关键条款、数字、条件和例外。

第二，引用是否可追溯。

如果回答说“可以报销”，但点不开原文依据，或者依据跳到了不相关段落，这个回答就不能算通过。

第三，是否承认不知道。

企业知识库不能为了显得聪明而瞎编。测试题里应该故意放几条文档没有覆盖的问题，看系统是否会提示“当前资料中没有找到明确依据”。

第四，错误是否可复盘。

如果答错了，要能判断原因：

错误现象	可能原因
找不到答案	文档没导入、OCR 失败、切分太碎
答案不完整	召回数量不足、问题问得太宽
引用错段落	切分边界不合理、标题层级丢失
混淆版本	新旧制度同时存在但没有标版本
编造答案	模型提示词和拒答策略不清楚

这张表比“准确率多少”更实用，因为它能指导下一轮怎么改。

RAGFlow 和 Dify 的定位不要混在一起

这个场景里，我会把 RAGFlow 和 Dify 分开看。

RAGFlow 更适合先验证文档解析、知识库构建、检索和引用依据。

Dify 更适合把已经验证过的问答能力接成业务工作流，比如审批助手、客服助手、投标材料整理、合同条款初筛。

如果一开始就用 Dify 搭完整工作流，但文档解析和引用依据还没验收，后面很容易出现一个问题：流程看起来跑通了，但回答质量不可靠。

所以更稳的顺序是：

用 RAGFlow 先把一类文档的问答和引用跑稳。
用固定问题集做验收。
确认资料质量和召回效果后，再考虑接到 Dify、Open WebUI 或内部机器人。
接入业务入口前，再补权限、日志和人工复核。

这样文章就不是泛泛讲“知识库治理”，而是给了一个能实际试跑的落地路线。

小团队可以按这套步骤试运行

如果是一个 5 到 20 人的小团队，可以先按下面的节奏跑一周。

第一天，选定资料范围。

只选一种资料，比如员工制度或脱敏合同模板。不要全公司资料一起上。

第二天，整理测试文档。

统一文件名、删除过期版本、做脱敏、检查 PDF 是否能被正常读取。

第三天，部署 RAGFlow。

按官方文档用 Docker 方式先跑起来，先不追求高可用，也不接公司统一入口。

第四天，导入文档并建立知识库。

导入后先看解析结果，不要急着问问题。尤其要检查表格、页眉页脚、编号条款有没有被正确处理。

第五天，跑测试问题集。

至少准备 20 个问题，每个问题都记录：答案是否正确、是否有依据、依据是否对应原文、是否需要人工复核。

第六天，整理错误样例。

把错误按“文档问题、切分问题、召回问题、模型回答问题、问题设计问题”分类。

第七天，决定是否扩大范围。

如果 20 个问题里只有 10 个勉强可用，就不要急着接入业务；如果大部分问题能准确引用原文，再考虑开放给小范围用户。

一份试运行记录表很有必要

我建议每次测试都留下这样的记录：

问题	预期依据	实际回答	引用是否正确	结论	后续处理
报销单据丢失怎么办？	报销制度第 4 节	回答缺少补充证明要求	部分正确	需修正	检查切分和召回
合同付款周期是多少？	合同模板第 6 条	引用了错误合同版本	错误	需修正	标记版本并分库
试用期能否请年假？	员工手册第 3 章	找不到明确依据	可接受	观察	补充制度原文