RAG 实战指南(四):RAG-embedding篇

前面我们介绍了RAG系统中的文档解析,RAG 的文档解析:PDF 篇,在解析文档得到数据后,由于数据规模很可能非常庞大,整体存储具有难度,并且在查询的时候可能仅仅和其中的一个或几个段落有关系,所以需要分块技术将解析后的文档内容切分为适当的片段一分钟读懂RAG的切分策略

切分完成后,需要将内容存储到向量数据库以供后续检索,下面我们就来看看怎么进行存储。

2.什么是embedding

Embedding(嵌入向量) 是将文字、图片、语音等“人类语言”转换为“计算机语言”的关键一步。它的作用,是把一句话或者一个词,变成一串可以进行数学运算的数字向量,让模型能“理解”我们在说什么。

计算机不懂“情绪”“背景”“常识”,它只能处理数字。所以如果我们问它:“北京和上海哪个更大?”它必须先把这句话变成数字(向量),再去和知识库里的内容做匹配——这就靠 embedding。

如果没有 embedding,AI 就像一个英语六级都没过的“文盲”,你说什么,它都回你:“对不起,我不明白。”

经典例子:

embedding(国王) -  embedding(男人) +  embedding(女人) ≈  embedding(女王)

这就像告诉 AI:“把男人换成女人,但身份还保留”,于是就得到了“女王”。

我们也可以来个幽默中文版:

embedding(程序员) -  embedding(秃头) +  embedding(头发浓密) ≈  理想中的程序员

在 RAG 系统中,Embedding 的任务:

  • 把文档每个段落、用户提问,都转成向量。
  • 用这些向量去做“语义检索”,找出最相关的内容。
  • 最后喂给大模型生成回答,回答才“有根有据”。

3.选择嵌入模型

在 RAG 系统中,嵌入模型(Embedding Model)就像是用户与知识库之间的翻译官——它决定了“你在说什么”和“它能不能听懂”。

选择一个合适的嵌入模型,能大幅提升检索质量与上下文匹配度。选得好,模型如虎添翼,问啥答啥;选不好,可能“查到不对题,答得更离谱”。

以下是选型时需要重点考虑的几个维度:

考量维度说明
语义表现力能否正确捕捉句子的含义?是否支持中文、多语言?
模型大小/效率越大越准?不一定!推理速度、GPU/CPU占用也是关键
训练目标是面向“检索”训练的(如BGE),还是面向“生成”或“通用”训练的?
向量归一化是否适合 FAISS 等向量库索引(部分模型需显式归一化)
开源/闭源是否可部署本地?是否支持商用?
社区支持与文档模型活跃度越高,调试与优化越方便

4.主流嵌入模型

以下是一些主流且表现优秀的嵌入模型,涵盖中英双语、轻量级部署、本地化支持等需求。

中文 & 多语言方向

模型名称简介与特点
BGE (BAAI)北京智源开源的检索导向模型,支持中文/英文,带bge-base-zh, bge-m3等版本,性能与速度兼顾。
E5 系列多语言嵌入模型(包括e5-base, e5-large),适用于检索任务,广泛支持中英文句子匹配。
GTE 系列百度提出的 GTE 模型(如 gte-base),表现稳定、部署友好,适合中文问答和文档检索。
text2vec 系列来自 HuggingFace 的中文句向量模型,如 shibing624/text2vec-base-multilingual,易用性高。

英文或通用方向

模型名称简介与适用场景
MiniLM / MPNetHuggingFace SentenceTransformers 库的经典嵌入模型,轻量快速、适合低资源场景。
Instructor支持带任务说明的嵌入(如 "Represent the query for retrieval: xxx"),效果优秀。
OpenAI AdaGPT 体系内置嵌入模型(如 text-embedding-ada-002),闭源但商用表现稳定强劲。
Cohere Embed专注于“可控语义检索”的服务型模型,API 提供简单,商用接口友好。

如果不知道选哪个,建议:

  • 小模型部署快,适合原型验证(如 bge-small-zh
  • 大模型更准,适合上线产品(如 bge-large-zh-v1.5
  • 想本地部署?就用 BGE、E5、GTE
  • 要省心云服务?那就试试 OpenAI Ada、Cohere

5. 向量数据库与存储(Vector Store)

在 RAG 系统中,文档被切分成多个片段,并转换为嵌入向量后,我们需要一个专业的仓库来高效存储和管理这些向量,这就需要向量数据库。

传统数据库(如 MySQL、MongoDB)虽然擅长处理结构化数据,但它们并不擅长处理“向量之间的相似度查找”。你可以在 SQL 里找“年龄大于30岁的人”,但你很难写出一句 SQL 语句找出“语义上跟‘年龄’相似的段落”。

向量数据库专门设计来处理高维向量的相似度搜索,支持高效的 Top-K 相似查找、ANN(近似最近邻)检索、向量聚类等操作,是构建 RAG 系统不可缺的部分。

目前的主流向量数据库如下:

名称特点适用场景是否开源
FAISS (Meta)高性能、轻量、本地运行快;支持多种索引类型(Flat, HNSW, IVF)本地小型应用、实验原型✅ 开源
Milvus全功能向量数据库,支持 GPU 加速;和 Zilliz Cloud 集成好企业级应用、大规模数据检索✅ 开源
Weaviate支持 hybrid search(关键词+向量);RESTful API 接入简单向量+关键词结合场景✅ 开源
QdrantRust 构建,响应快、资源占用低,支持过滤条件精细检索、需要元数据过滤✅ 开源
Pinecone全托管,免部署;免费额度友好快速上线、无需运维场景❌ 闭源
Redis-VectorRedis 插件,轻量级向量搜索边缘计算、实时性强的小应用✅ 开源插件

向量数据库并不只是“把向量扔进去”,它还支持附加一些元数据(metadata),比如:

{
  "id": "para_12",
  "embedding": [0.12, 0.83, ..., -0.01],
  "metadata": {
    "source": "环境学教科书.pdf",
    "page": 24,
    "title": "温室效应原理"
  }
}

这样做的好处是,在检索出相关段落后,可以提供出处、页码、标题等辅助信息,不仅增强模型输出的可信度,也方便用户回溯查证。

6.总结

构建一个靠谱的 RAG 系统,不只是喂一个大模型这么简单,而是要让文档处理、切分、嵌入、检索、生成,像一套精密齿轮那样默契协作。

未来也许我们会看到更加智能的嵌入策略,甚至由模型动态决定怎么切、怎么嵌。但无论技术如何进化,嵌入始终是RAG系统中最“低调却有分量”的一环。

你给模型什么嵌入,它就给你什么回答。

我们该怎样系统的去转行学习大模型 ?

很多想入行大模型的人苦于现在网上的大模型老课程老教材,学也不是不学也不是,基于此,我用做产品的心态来打磨这份大模型教程,深挖痛点并持续修改了近100余次后,终于把整个AI大模型的学习门槛,降到了最低!

在这个版本当中:

第一您不需要具备任何算法和数学的基础
第二不要求准备高配置的电脑
第三不必懂Python等任何编程语言

您只需要听我讲,跟着我做即可,为了让学习的道路变得更简单,这份大模型教程已经给大家整理并打包,现在将这份 LLM大模型资料 分享出来: 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

一、大模型经典书籍(免费分享)

AI大模型已经成为了当今科技领域的一大热点,那以下这些大模型书籍就是非常不错的学习资源。

二、640套大模型报告(免费分享)

这套包含640份报告的合集,涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、大模型系列视频教程(免费分享)

在这里插入图片描述

四、2025最新大模型学习路线(免费分享)

我们把学习路线分成L1到L4四个阶段,一步步带你从入门到进阶,从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段:我们会去了解大模型的基础知识,以及大模型在各个行业的应用和分析;学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段:攻坚篇丨RAG开发实战工坊

L2阶段是我们的AI大模型RAG应用开发工程,我们会去学习RAG检索增强生成:包括Naive RAG、Advanced-RAG以及RAG性能评估,还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段:跃迁篇丨Agent智能体架构设计

L3阶段:大模型Agent应用架构进阶实现,我们会去学习LangChain、 LIamaIndex框架,也会学习到AutoGPT、 MetaGPT等多Agent系统,打造我们自己的Agent智能体。

L4阶段:精进篇丨模型微调与私有化部署

L4阶段:大模型的微调和私有化部署,我们会更加深入的探讨Transformer架构,学习大模型的微调技术,利用DeepSpeed、Lamam Factory等工具快速进行模型微调。

L5阶段:专题集丨特训篇 【录播课】

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方二维码,免费领取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值