思维导图

课程内容
1. 背景与核心动机
- 现实:约 95% 知识为企业私有数据,通用大模型只覆盖 5% 公共语料。
- 类比:LLM 像 CPU,RAG 像“从外部存储加载知识”机制。
- 目标:让企业成员“低摩擦”获得组织集体智慧;本质是重构“搜索 → 决策/执行”链条,而不是简单问答替代。
- 痛点:模型内部知识滞后、专业场景幻觉高、长尾问题覆盖差、精确引用与可追溯需求上升。
2. RAG 的三大基础价值
- 知识更新(外部数据即时接入)
- 知识注入(专业/私域语料增强)
- 幻觉抑制(答案与上下文绑定)
3. 应用范围扩展
-
不仅是 FAQ/知识库问答
-
典型扩展:Text2SQL / SQL 生成辅助、代码检索 + 模式示例参考、写作与报告生成、信息抽取、日志/运维语义检索、Agent 工具编排、Deep Search / Deep Research、多模态(图 + 文档截图)检索。


4. RAG 常见失败模式(典型分层定位)

| 层级 | 失败现象 |
|---|---|
| 数据/索引 | 无对应内容(超纲)、OCR/解析错误、切块跨语义 |
| 检索 | 召回失败、相关性排序差、短文本/噪声块干扰 |
| 上下文注入 | 重要块丢失(长度裁剪)、Lost-in-the-middle |
| 生成 | 幻觉(预训练 or 上下文误读)、答案不完备、格式不符、风格不匹配、引用错乱 |
| 评估 | 指标缺失或只看主观体验,优化无方向 |
补充:上下文幻觉 = 已提供正确材料仍答错;结构性缺失多源于理解/注意力集中模式。
5. 评估体系
5.1 数据结构(CRAG 类)

- question
- answer(系统输出)
- contexts(检索返回按相似度排序)
- reference_context(标注相关上下文)
- ground_truth(参考答案)
5.2 核心指标

- Answer Relevancy(问答相关性,LLM 0/1 判)
- Answer Semantic Similarity(与 ground truth 语义相似度,交叉编码器)
- Answer Correctness(事实一致性,LLM 判)
- Answer Faithfulness(对已提供 context 的忠实度)
- Answer Critique(有害/风险检测)
5.3 评分策略

- 人类裁判(业务指标主导)
- LLM as Judge(需先校准与人工一致性)
- 技巧:尽量 0/1 判,提高稳定性
5.4 业务人工四级打分(含幻觉惩罚)
- 1:完美(完整、流畅、正确)
- 0.5:可接受(轻微瑕疵不影响结论)
- 0:Missing / 不知道(未答或明确无内容)
- -1:错误 / 幻觉(编造事实)
说明:引入 -1 后整体平均分数下行,有助督促幻觉治理。
5.5 目标
- 检索层 Recall@K:≥90%–95%(低于此难以靠生成弥补)
- 端到端优化首要抓检索,不盲目早调生成风格。
6. 索引(Indexing)全流程
6.1 数据接入与清洗
- 来源:扫描 PDF、文字 PDF、Word、Excel、PPT、网页、结构化 SQL、知识图谱、Markdown(推荐统一格式)
- 扫描/复杂文档处理:OCR、表格识别、图片提取、标题层级还原、错误修复、图片转储。
- 工具与路线:开源(document-convert、Ragflow、gptpdf、PDF-Extract-Kit、MinerU);多模型组合 / 多模态专用小模型。
- 评估数据集覆盖:数字 PDF、扫描模糊、水印、复杂表格、习题、图文混排等。
6.2 Chunking / Split
- 模型上下文限制决定 chunk 最大长度;推荐 500 / 1K / 2K(字符/Token 级别)
- 原则:不跨语义边界(章节、表格、逻辑段)
- 方法:固定长、递归多字符、章节、语义切分
- 召回数量:通常 3 / 5 / 10 平衡相关性与上下文窗口
6.3 父子检索(Parent-Child Retrieval)
- 子:精细粒度召回(句子/段)
- 父:扩展更大语义块供生成理解
- 可扩展附加结构:Sentence、Summary、Q&A 对、Image description(VLM)、Image Embedding、Table Embedding、人工补充节点
6.4 多表示增强(衍生派生字段)
- 摘要、QA 对、表格/图片描述、结构化 schema 抽取,提高多视角匹配机会。
6.5 Embedding 模型
- 传统双塔(Bi-Encoder)
- 新趋势:多语言(bge-multilingual-gemma2)、指令风格(E5、jina-3)、领域适配(LoRA 叠加)
- Token 级多向量(ColBERT 风格):提升细粒度匹配但存储/性能成本高
6.6 稀疏 vs 稠密 vs 混合
- 稀疏:BM25、SPLADE、bge-m3(稀疏向量)
- 稠密:Sentence / Instruction Embedding 模型
- 混合检索:并行执行 BM25 + 向量,结果合并(RRF / 排名倒数加权),推荐“默认无脑开启”。
6.7 向量数据库
- 相似度:Cosine / Dot / Euclidean
- 检索结构:全量遍历 vs HNSW(分层小世界图)
- 关注三要素:质量 / 内存 / 速度
- 经验:检索效果主要受“向量质量”决定,DB 选型更多影响性能与可扩展。
7. 检索阶段优化
7.1 Pre-Retrieval(请求前优化)

- Query Rewrite:指代消解、口语转正式、展开缩写/行业术语
- HyDE:生成假设回答再检索;Reverse HyDE:预生成 Query 索引
- Query Expansion:Sub-Query 拆分、多跳前提 Step-back
- Query Construction:生成 SQL / 图谱查询语句
→ 必备:对多轮上下文重写(避免丢失关联)
7.2 Post-Retrieval(检索后优化)

- Lost-in-the-middle 调整:重排顺序(例:[1,2,3,4,5] → [1,3,5,4,2])
- MMR:去除冗余/离群或低相关噪声块
- Context Compression:低相关 Token 删除(如 LLMLingua 思路)
- Selection:次级过滤(规则或小模型)
- 交叉编码器 Rerank:ListT5、MonoT5 等(多用于较少量候选)
- 实战结论:父子检索 + 混合检索成熟后,Rerank 边际收益降低,可按需开启。
7.3 何时微调 Embedding / Reranker
- 专业垂直子领域(通用嵌入效果不足)
- 长尾 Query 相似度判定不准、召回误差集中
- 三元组训练(锚点 / 正例 / 负例)→ 聚簇分离
8. 生成(Generation)
8.1 Prompt 设计要点

- 明确:问题 / 上下文(引用块编号) / 角色 / 风格 / 输出格式 / 严禁编造
- 重复关键约束(防遗忘)
- 推荐问生成:基于当前上下文 + 指代消解
8.2 引用显示(Citations)

- 需求:答案句级或段级标注来源 [1][2]
- 难点:小模型(<30B)引用错乱、漂移或补写;必要时采用后处理对齐策略或放弃精细引用
- 可替代:段落级引用集合输出,再客户端高亮
8.3 生成微调(Context-aware Fine-tuning)

- 数据构造:强模型蒸馏(合成 RAG 样本,含相关/不相关文档混入)
- 目标提升:上下文理解、幻觉抑制、风格一致、长上下文鲁棒性
- 适用:工程优化收益下降、风格/结构强约束场景
9. 知识组织与可进化性
- 持续更新:新增文档自动解析 → 质量净化(去重、脏块清理)
- 结构扩展:知识图谱(选场景,不追求全量复杂度)
- FAQ / QA 对自动扩展策略:
1)先抽“知识点”→ 再基于每个知识点生成问题
2)补充跨段/综合性总结类问题
3)避免“一段一问”均匀切割导致噪声与稀碎 - 适配产品:个性化(身份 / 历史提问 / 领域偏好)
10. 演进路径

| 阶段 | 特征 |
|---|---|
| 基础 RAG | Query → 检索 → 生成 |
| 高级 RAG | + Pre/Post-Retrieval 优化、父子检索、多表示 |
| 模块化 RAG | 功能模块化配置(灵活编排) |
| Graph / KG RAG | 多跳关系推理(特定结构场景) |
| 多向量 / Token 级(ColBERT) | 精细匹配,存储成本高 |
| Agentic / Deep Search | 递归分解问题、子查询规划、多轮检索反思 |
| Visual RAG | 直接对截图 / 图像块做向量检索(OCR 链路缩短) |
| Deep Research | 规划 → 信息采集循环 → 结构化报告输出 |
11. 前沿方向概览
-
ColBERT / 多向量索引:提升长文细粒度匹配;折衷:存储/算力压力

-
知识图谱增强(GraphRAG / LightRAG / PathRAG 等):适用于结构化实体关系清晰、多跳推理任务;难点在抽取质量与检索耗时

-
Agentic RAG / Deep Search:多轮子任务分解 + 检索 + 反思;牺牲时延换取复杂问题质量


-
Visual RAG:图表/截图直接检索,适用于表格、报表解读;VLM 质量瓶颈仍在

-
Deep Research(单/多 Agent):生成可执行研究报告(规划 → 循环检索 → 反思 → 汇总),依赖:长上下文 + 工具调用 + 稳定性。

12. 实践经验与策略优先级(课程核心)
必备“组合拳”(强烈推荐默认启用):
- 高质量文本规整(Markdown 化、结构语义保留)
- 语义友好的 Chunk(不跨逻辑单元)
- 父子检索(子精召回 + 父补足语境)
- 混合检索(BM25 + 向量 + RRF 合并)
- Query Rewrite(指代消解 / 术语展开)
- MMR / 规则重排(轻量消噪、Lost-in-middle 修正)
- 引用策略(可视化可信度)
- 评估闭环(业务 + 自动化指标 + -1 幻觉惩罚)
与工程复杂度的平衡:
- 早期:聚焦数据质量 + 检索召回覆盖
- 中期:补齐 Pre/Post 优化与评估体系
- 后期:当单次检索架构收益递减 → 引入微调 / Agent / 多轮深度检索
- 避免过度堆砌多路策略(收益递减明显),优先考虑“换模型 / 加强数据标注 / 结构化知识”。
13. 典型细节参数(经验)
- Chunk 尺寸:500 / 1K / 2K(视任务密度与模型上下文)
- TopK 初值:3 / 5 / 10 分层试验
- Recall 目标:≥90%(专业 / 决策类场景 ↑ 至 95%)
- 引用显示:<30B 小模型慎用句级精细引用
- Query Rewrite:可采用中等尺寸指令模型(7B/14B)提升效率
14. QA 数据与训练数据构造方法
步骤:
- 文档 → 抽取“知识点集合”
- 知识点分类:事实类 / 过程类 / 关系类 / 统计类
- 基于知识点生成多样化问题(精确问 + 综合问 + 跨段问)
- 生成参考答案 & 标注相关上下文块(reference_context)
- 注入少量“无关文档”生成对比训练样本(幻觉抑制)
- 构建三元组(锚点 / 正例 / 负例)→ Embedding 微调
作用:提升知识点高密度区域覆盖 + 降低随机问答空洞感。
15. 领域与场景延伸(课程讨论要点)
- 金融:理财/贷款产品结构化属性 → 适合父子检索 + QA 生成;Text2SQL + 历史 Query → SQL 映射参考检索提升稳定性
- 运维 / 日志:语义化检索替代纯关键词;故障诊断推荐更多是“增强决策提示”而非直接自动执行
- 风控建模:Agent 自动化数据选择、模型训练、评估(与 RAG 属于并行价值链)
16. 幻觉治理与可信增强
- 策略:引用标注 + 未命中文档时“明确回答不知道”
- 反模式:强行生成、补写字段、虚构表项
- 生成前:置信度过滤(低相关块不注入)
- 生成后:小模型快速事实一致性检测(可选)
17. 何时进入 Fine-tuning / Agent 阶段
触发条件:
- 检索结构趋于稳定,优化曲线平台化
- 长尾特异 Query 难以持续工程补丁
- 输出风格 / 结构强一致性要求(报告、法规、合规回答)
- 复杂多跳、组合推理(常规一次性检索不足)
18. 工程注意事项
- 不建议在线“手工编辑 Chunk”破坏语义连续性(如需改动保留原始副本)
- 优先自动化:数据清洗 → 切分 → 增强 → 评估指标回写
- 避免过拟合小样本评估(保持多维集:开发集 / 业务监控集 / 回归集)
- 不盲目多路检索:策略少而精 + 可解释
- 延迟分级:普通模式(快速)+ 深度模式(可等待 10–30 秒)
19. 总体方法论(从 0→1→进阶)
- 搭骨架:数据规整 + 混合检索 + 父子结构
- 建评估:Recall@K / Faithfulness / 业务四级评分(含 -1)
- 强化检索:Query Rewrite / 扩写 / MMR / 去噪
- 加可信:引用 + 明确“不知道”策略
- 增产能:推荐问、可执行输出模版(结构化 JSON / SQL / 报告框架)
- 深拓展:多模态 / Agent / Deep Search / Graph 场景定制
- 长期演进:数据更新与知识结构化(知识点 → 知识图谱 / 主题树)
20. 核心“精炼原则”
- 数据第一,检索第二,生成第三
- 幻觉能避则避,不可装饰包装
- 简化 vs 叠加:优先少量高价值策略组合
- 评估闭环是优化前提,不凭主观感觉调参
- 复杂问题=规划 + 多轮信息累积(Agentic/Deep Search)
- 不追求“炫技式”图谱,全量结构化成本极高,场景适配为王
总结
本课程系统梳理了 RAG 从基础到高级与前沿的全链路方法——其本质是通过“高质量外部知识 + 有效检索编排 + 可信生成 + 可进化评估”构建企业级知识生产力,而非仅止步于“回答一个问题”。

1147

被折叠的 条评论
为什么被折叠?



