高级 RAG 技术原理和前沿进展

原创已于 2025-09-09 19:28:25 修改 · 1.4k 阅读

·

23

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#大模型

于 2025-09-09 19:27:27 首次发布

大模型专栏收录该内容

5 篇文章

订阅专栏

思维导图

在这里插入图片描述

课程内容

1. 背景与核心动机

现实：约 95% 知识为企业私有数据，通用大模型只覆盖 5% 公共语料。
类比：LLM 像 CPU，RAG 像“从外部存储加载知识”机制。
目标：让企业成员“低摩擦”获得组织集体智慧；本质是重构“搜索 → 决策/执行”链条，而不是简单问答替代。
痛点：模型内部知识滞后、专业场景幻觉高、长尾问题覆盖差、精确引用与可追溯需求上升。

2. RAG 的三大基础价值

知识更新（外部数据即时接入）
知识注入（专业/私域语料增强）
幻觉抑制（答案与上下文绑定）

3. 应用范围扩展

不仅是 FAQ/知识库问答
典型扩展：Text2SQL / SQL 生成辅助、代码检索 + 模式示例参考、写作与报告生成、信息抽取、日志/运维语义检索、Agent 工具编排、Deep Search / Deep Research、多模态（图 + 文档截图）检索。

在这里插入图片描述

4. RAG 常见失败模式（典型分层定位）

在这里插入图片描述

层级	失败现象
数据/索引	无对应内容（超纲）、OCR/解析错误、切块跨语义
检索	召回失败、相关性排序差、短文本/噪声块干扰
上下文注入	重要块丢失（长度裁剪）、Lost-in-the-middle
生成	幻觉（预训练 or 上下文误读）、答案不完备、格式不符、风格不匹配、引用错乱
评估	指标缺失或只看主观体验，优化无方向

补充：上下文幻觉 = 已提供正确材料仍答错；结构性缺失多源于理解/注意力集中模式。

5. 评估体系

5.1 数据结构（CRAG 类）

在这里插入图片描述

question
answer（系统输出）
contexts（检索返回按相似度排序）
reference_context（标注相关上下文）
ground_truth（参考答案）

5.2 核心指标

在这里插入图片描述

Answer Relevancy（问答相关性，LLM 0/1 判）
Answer Semantic Similarity（与 ground truth 语义相似度，交叉编码器）
Answer Correctness（事实一致性，LLM 判）
Answer Faithfulness（对已提供 context 的忠实度）
Answer Critique（有害/风险检测）

5.3 评分策略

在这里插入图片描述

人类裁判（业务指标主导）
LLM as Judge（需先校准与人工一致性）
技巧：尽量 0/1 判，提高稳定性

5.4 业务人工四级打分（含幻觉惩罚）

1：完美（完整、流畅、正确）
0.5：可接受（轻微瑕疵不影响结论）
0：Missing / 不知道（未答或明确无内容）
-1：错误 / 幻觉（编造事实）
说明：引入 -1 后整体平均分数下行，有助督促幻觉治理。

5.5 目标

检索层 Recall@K：≥90%–95%（低于此难以靠生成弥补）
端到端优化首要抓检索，不盲目早调生成风格。

6. 索引（Indexing）全流程

6.1 数据接入与清洗

来源：扫描 PDF、文字 PDF、Word、Excel、PPT、网页、结构化 SQL、知识图谱、Markdown（推荐统一格式）
扫描/复杂文档处理：OCR、表格识别、图片提取、标题层级还原、错误修复、图片转储。
工具与路线：开源（document-convert、Ragflow、gptpdf、PDF-Extract-Kit、MinerU）；多模型组合 / 多模态专用小模型。
评估数据集覆盖：数字 PDF、扫描模糊、水印、复杂表格、习题、图文混排等。

6.2 Chunking / Split

模型上下文限制决定 chunk 最大长度；推荐 500 / 1K / 2K（字符/Token 级别）
原则：不跨语义边界（章节、表格、逻辑段）
方法：固定长、递归多字符、章节、语义切分
召回数量：通常 3 / 5 / 10 平衡相关性与上下文窗口

6.3 父子检索（Parent-Child Retrieval）

子：精细粒度召回（句子/段）
父：扩展更大语义块供生成理解
可扩展附加结构：Sentence、Summary、Q&A 对、Image description（VLM）、Image Embedding、Table Embedding、人工补充节点

6.4 多表示增强（衍生派生字段）

摘要、QA 对、表格/图片描述、结构化 schema 抽取，提高多视角匹配机会。

6.5 Embedding 模型

传统双塔（Bi-Encoder）
新趋势：多语言（bge-multilingual-gemma2）、指令风格（E5、jina-3）、领域适配（LoRA 叠加）
Token 级多向量（ColBERT 风格）：提升细粒度匹配但存储/性能成本高

6.6 稀疏 vs 稠密 vs 混合

稀疏：BM25、SPLADE、bge-m3（稀疏向量）
稠密：Sentence / Instruction Embedding 模型
混合检索：并行执行 BM25 + 向量，结果合并（RRF / 排名倒数加权），推荐“默认无脑开启”。

6.7 向量数据库

相似度：Cosine / Dot / Euclidean
检索结构：全量遍历 vs HNSW（分层小世界图）
关注三要素：质量 / 内存 / 速度
经验：检索效果主要受“向量质量”决定，DB 选型更多影响性能与可扩展。

7. 检索阶段优化

7.1 Pre-Retrieval（请求前优化）

在这里插入图片描述

Query Rewrite：指代消解、口语转正式、展开缩写/行业术语
HyDE：生成假设回答再检索；Reverse HyDE：预生成 Query 索引
Query Expansion：Sub-Query 拆分、多跳前提 Step-back
Query Construction：生成 SQL / 图谱查询语句
→ 必备：对多轮上下文重写（避免丢失关联）

7.2 Post-Retrieval（检索后优化）

在这里插入图片描述

Lost-in-the-middle 调整：重排顺序（例：[1,2,3,4,5] → [1,3,5,4,2]）
MMR：去除冗余/离群或低相关噪声块
Context Compression：低相关 Token 删除（如 LLMLingua 思路）
Selection：次级过滤（规则或小模型）
交叉编码器 Rerank：ListT5、MonoT5 等（多用于较少量候选）
实战结论：父子检索 + 混合检索成熟后，Rerank 边际收益降低，可按需开启。

7.3 何时微调 Embedding / Reranker

专业垂直子领域（通用嵌入效果不足）
长尾 Query 相似度判定不准、召回误差集中
三元组训练（锚点 / 正例 / 负例）→ 聚簇分离

8. 生成（Generation）

8.1 Prompt 设计要点

在这里插入图片描述

明确：问题 / 上下文（引用块编号） / 角色 / 风格 / 输出格式 / 严禁编造
重复关键约束（防遗忘）
推荐问生成：基于当前上下文 + 指代消解

8.2 引用显示（Citations）

在这里插入图片描述

需求：答案句级或段级标注来源 [1][2]
难点：小模型（<30B）引用错乱、漂移或补写；必要时采用后处理对齐策略或放弃精细引用
可替代：段落级引用集合输出，再客户端高亮

8.3 生成微调（Context-aware Fine-tuning）

在这里插入图片描述

数据构造：强模型蒸馏（合成 RAG 样本，含相关/不相关文档混入）
目标提升：上下文理解、幻觉抑制、风格一致、长上下文鲁棒性
适用：工程优化收益下降、风格/结构强约束场景

9. 知识组织与可进化性

持续更新：新增文档自动解析 → 质量净化（去重、脏块清理）
结构扩展：知识图谱（选场景，不追求全量复杂度）
FAQ / QA 对自动扩展策略：
1）先抽“知识点”→ 再基于每个知识点生成问题
2）补充跨段/综合性总结类问题
3）避免“一段一问”均匀切割导致噪声与稀碎
适配产品：个性化（身份 / 历史提问 / 领域偏好）

10. 演进路径

在这里插入图片描述

阶段	特征
基础 RAG	Query → 检索 → 生成
高级 RAG	+ Pre/Post-Retrieval 优化、父子检索、多表示
模块化 RAG	功能模块化配置（灵活编排）
Graph / KG RAG	多跳关系推理（特定结构场景）
多向量 / Token 级（ColBERT）	精细匹配，存储成本高
Agentic / Deep Search	递归分解问题、子查询规划、多轮检索反思
Visual RAG	直接对截图 / 图像块做向量检索（OCR 链路缩短）
Deep Research	规划 → 信息采集循环 → 结构化报告输出

11. 前沿方向概览

ColBERT / 多向量索引：提升长文细粒度匹配；折衷：存储/算力压力
知识图谱增强（GraphRAG / LightRAG / PathRAG 等）：适用于结构化实体关系清晰、多跳推理任务；难点在抽取质量与检索耗时
Agentic RAG / Deep Search：多轮子任务分解 + 检索 + 反思；牺牲时延换取复杂问题质量
Visual RAG：图表/截图直接检索，适用于表格、报表解读；VLM 质量瓶颈仍在
Deep Research（单/多 Agent）：生成可执行研究报告（规划 → 循环检索 → 反思 → 汇总），依赖：长上下文 + 工具调用 + 稳定性。

12. 实践经验与策略优先级（课程核心）

必备“组合拳”（强烈推荐默认启用）：

高质量文本规整（Markdown 化、结构语义保留）
语义友好的 Chunk（不跨逻辑单元）
父子检索（子精召回 + 父补足语境）
混合检索（BM25 + 向量 + RRF 合并）
Query Rewrite（指代消解 / 术语展开）
MMR / 规则重排（轻量消噪、Lost-in-middle 修正）
引用策略（可视化可信度）
评估闭环（业务 + 自动化指标 + -1 幻觉惩罚）

与工程复杂度的平衡：

早期：聚焦数据质量 + 检索召回覆盖
中期：补齐 Pre/Post 优化与评估体系
后期：当单次检索架构收益递减 → 引入微调 / Agent / 多轮深度检索
避免过度堆砌多路策略（收益递减明显），优先考虑“换模型 / 加强数据标注 / 结构化知识”。

13. 典型细节参数（经验）

Chunk 尺寸：500 / 1K / 2K（视任务密度与模型上下文）
TopK 初值：3 / 5 / 10 分层试验
Recall 目标：≥90%（专业 / 决策类场景 ↑ 至 95%）
引用显示：<30B 小模型慎用句级精细引用
Query Rewrite：可采用中等尺寸指令模型（7B/14B）提升效率

14. QA 数据与训练数据构造方法

步骤：

文档 → 抽取“知识点集合”
知识点分类：事实类 / 过程类 / 关系类 / 统计类
基于知识点生成多样化问题（精确问 + 综合问 + 跨段问）
生成参考答案 & 标注相关上下文块（reference_context）
注入少量“无关文档”生成对比训练样本（幻觉抑制）
构建三元组（锚点 / 正例 / 负例）→ Embedding 微调
作用：提升知识点高密度区域覆盖 + 降低随机问答空洞感。

15. 领域与场景延伸（课程讨论要点）

金融：理财/贷款产品结构化属性 → 适合父子检索 + QA 生成；Text2SQL + 历史 Query → SQL 映射参考检索提升稳定性
运维 / 日志：语义化检索替代纯关键词；故障诊断推荐更多是“增强决策提示”而非直接自动执行
风控建模：Agent 自动化数据选择、模型训练、评估（与 RAG 属于并行价值链）

16. 幻觉治理与可信增强

策略：引用标注 + 未命中文档时“明确回答不知道”
反模式：强行生成、补写字段、虚构表项
生成前：置信度过滤（低相关块不注入）
生成后：小模型快速事实一致性检测（可选）

17. 何时进入 Fine-tuning / Agent 阶段

触发条件：

检索结构趋于稳定，优化曲线平台化
长尾特异 Query 难以持续工程补丁
输出风格 / 结构强一致性要求（报告、法规、合规回答）
复杂多跳、组合推理（常规一次性检索不足）

18. 工程注意事项

不建议在线“手工编辑 Chunk”破坏语义连续性（如需改动保留原始副本）
优先自动化：数据清洗 → 切分 → 增强 → 评估指标回写
避免过拟合小样本评估（保持多维集：开发集 / 业务监控集 / 回归集）
不盲目多路检索：策略少而精 + 可解释
延迟分级：普通模式（快速）+ 深度模式（可等待 10–30 秒）

19. 总体方法论（从 0→1→进阶）

搭骨架：数据规整 + 混合检索 + 父子结构
建评估：Recall@K / Faithfulness / 业务四级评分（含 -1）
强化检索：Query Rewrite / 扩写 / MMR / 去噪
加可信：引用 + 明确“不知道”策略
增产能：推荐问、可执行输出模版（结构化 JSON / SQL / 报告框架）
深拓展：多模态 / Agent / Deep Search / Graph 场景定制
长期演进：数据更新与知识结构化（知识点 → 知识图谱 / 主题树）

20. 核心“精炼原则”

数据第一，检索第二，生成第三
幻觉能避则避，不可装饰包装
简化 vs 叠加：优先少量高价值策略组合
评估闭环是优化前提，不凭主观感觉调参
复杂问题=规划 + 多轮信息累积（Agentic/Deep Search）
不追求“炫技式”图谱，全量结构化成本极高，场景适配为王

总结

本课程系统梳理了 RAG 从基础到高级与前沿的全链路方法——其本质是通过“高质量外部知识 + 有效检索编排 + 可信生成 + 可进化评估”构建企业级知识生产力，而非仅止步于“回答一个问题”。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。