一文搞懂RAG分块技术：提升大模型准确性的关键（建议收藏）

最新推荐文章于 2026-06-18 14:16:48 发布

原创最新推荐文章于 2026-06-18 14:16:48 发布 · 330 阅读

10 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #大语言模型 #AI #程序员 #大模型

文本分块（Chunking）是决定 RAG（检索增强生成）系统成败的核心技术之一，却常常在幕后默默发挥作用。简单来说，分块就是把长文档切分成更小、结构化的片段，让 AI 系统能够真正检索和推理。

分块可以：

• 降低数据检索中的噪声
• 减少 AI 幻觉（即生成错误或误导性结果）
• 缓解上下文丢失问题

上下文丢失，指模型要么收到文本过多、要么过少，无法判断哪些信息属于同一主题，也记不住句子、话题、章节之间的关联。简言之，因为检索到的数据杂乱无章，模型根本无法理解用户在问什么。只要采用合适的分块策略，RAG 应用就能成为高度可靠的知识系统，返回简洁、上下文相关的答案。

分块不只是一个预处理技巧，而是 RAG 的基石，它让系统能够快速、规模化地稳定运行，并输出准确、上下文感知的响应。下图展示了信息在 RAG 系统中的流转过程。

RAG 架构中的文本分块

分块在数据入库之后、向量化之前执行，是决定信息如何存储、检索并最终被大模型使用的最关键一步。

我们不会把整篇文档直接喂给模型，而是通过分块，将其切分成语义上有意义的上下文窗口。在数据入库阶段，系统会收集 PDF、规章制度、手册、网页、对话记录、内部知识库等原始文档，并将其转为纯文本。这些提取出的文本通常过长、格式混乱、噪声多，不适合直接向量化或检索。在向量化之前，内容必须被结构化和规范化——这就是分块的核心价值。

分块将大文本切分成语义或结构上有意义的单元。这一点之所以重要，是因为：

• 向量嵌入模型有上下文长度限制，超长输入效果极差
• 检索引擎在上下文过大、包含无关数据时表现糟糕

分块通过把数据整理成兼顾语义完整性与嵌入效率的均衡单元，解决了这些问题。

上图展示了不同分块大小对 RAG 准确率的影响。分块边界决定了嵌入的粒度，进而影响向量检索精度——因为相似度检索（如余弦相似度、距离度量）依赖每个分块的语义指纹质量。在 RAG 架构中，分块是一项核心结构决策，直接决定整条 pipeline 的性能。

主流 RAG 文本分块策略

实际应用中有多种分块策略，各有优劣，以下是几种关键方案：

固定大小分块（Fixed-Size Chunking）

最直接的分块方式，按 Token 数量切分。例如每 300 个 Token 切一块。

• 优点：嵌入大小可预测，实现简单
• 缺点：可能在句子中间切断，造成检索噪声
• 适用：日志、邮件等结构规整、模式重复的文本

from langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(    chunk_size=300,    chunk_overlap=0)

语义分块（Semantic Chunking）

不按固定长度切分，而是基于语义与含义切分，可通过 NLP 或 LLM 实现：

• NLP 方式：依赖句子边界、段落分隔、章节标题，成本低、速度快，但更僵化
• LLM 方式：深度分析内容，识别话题切换，自动决定边界，对格式差的文本更友好

下面是基于 LangChain 的语义分块示例： SemanticChunker 根据语义相似度而非固定 Token 数划分边界，需要嵌入模型计算相邻文本的相似度，以检测话题切换。

from langchain_experimental.text_splitter import SemanticChunkerfrom langchain_openai.embeddings import OpenAIEmbeddingsembed_model = OpenAIEmbeddings()semantic_chunker = SemanticChunker(    embed_model,    breakpoint_threshold_type="percentile")

滑动窗口分块（Sliding Window Chunking）

混合方案，用来解决固定分块切断重要上下文的问题。通过创建重叠分块避免信息丢失，例如 400 Token 的分块，设置 20%–30% 重叠。这样，靠近边界的概念至少会出现在两个分块中，提升连贯性。

from langchain_text_splitters import TokenTextSplittertext_splitter = TokenTextSplitter(    chunk_size=400,    chunk_overlap=100)

反向分块（Reverse Chunking）

适用于关键信息出现在章节末尾、总结、脚注的数据集。不从文档开头分块，而是从末尾向前分块，确保以总结为核心的文档，关键要点保留在同一块内，而不是散落在多个分块中。这能让检索系统直接返回高信息密度内容，而不必使用过大的分块。

from langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(    chunk_size=300,    chunk_overlap=0)chunks = text_splitter.split_text(text)chunks = list(reversed(chunks))