RAG架构深度实践：从文档切分到检索增强的工程化全链路

最新推荐文章于 2026-06-18 14:16:48 发布

原创最新推荐文章于 2026-06-18 14:16:48 发布 · 409 阅读

3 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

RAG架构深度实践：从文档切分到检索增强的工程化全链路

cover

一、RAG的朴素想象与现实差距：检索不等于理解

很多人对RAG的理解停留在"把文档切成块，存到向量库，提问时检索相关块拼进Prompt让LLM回答"。这个流程在Demo阶段确实能跑通，但生产环境里问题接踵而至：切分策略不当导致关键信息被截断、检索到的块和问题相关性低、多个块之间信息冲突时LLM难以判断、长文档的层级结构在切分后彻底丢失。

更根本的问题是：检索到的文本块只是"相关"，不一定是"正确"。比如用户问"这个产品的退款政策是什么"，检索到的可能是旧版条款，而最新版藏在另一个块里。RAG系统没有版本意识，它只按语义相似度排序，不按时效性排序。

工程化RAG的核心，其实是在文档处理、检索策略和结果融合三个环节同时优化，而不是只调向量数据库的参数。

二、RAG工程化架构：四阶段处理管线

我把RAG系统拆解为四个阶段：文档解析、知识切分、检索增强、答案生成。每个阶段都有独立的优化空间。

graph TB
    subgraph 四阶段RAG管线
        D[文档解析] --> K[知识切分]
        K --> R[检索增强]
        R --> A[答案生成]
    end

    subgraph 文档解析
        D1[格式统一化] --> D2[结构提取]
        D2 --> D3[元数据标注]
    end

    subgraph 知识切分
        K1[语义边界检测] --> K2[层级保留]
        K2 --> K3[重叠窗口]
    end

    subgraph 检索增强
        R1[多路召回] --> R2[重排序]
        R2 --> R3[冲突消解]
    end

    subgraph 答案生成
        A1[上下文压缩] --> A2[引用标注]
        A2 --> A3[置信度评估]
    end

    style D fill:#1890ff,color:#fff
    style K fill:#52c41a,color:#fff
    style R fill:#722ed1,color:#fff
    style A fill:#eb2f96,color:#fff

文档解析阶段把PDF、Word、HTML等格式统一成结构化文本，提取标题层级、表格、列表等结构信息，标注来源、版本号、更新时间等元数据。

知识切分阶段直接影响RAG的效果。如果简单按固定字符切割，很容易打断句子的连贯性。我们尝试过按标题层级划分大块，再把超长的段落拆成句子，同时在相邻块之间留出64个字符的重叠——这样既能保持结构，又不会漏掉关键信息。

检索增强阶段采用多路召回：向量检索（语义相似）+ 关键词检索（精确匹配）+ 元数据过滤（时间范围、文档类型）。多路结果合并后，用交叉编码器重排序，确保最相关的块排在前面。

答案生成阶段把检索到的块压缩成精简上下文（避免超出Token限制），生成答案时标注引用来源，并评估答案的置信度。

三、知识切分与检索增强的Python实现

# rag/chunker.py
import re
from dataclasses import dataclass, field
from typing import List, Optional

@dataclass
class Chunk:
    """知识块"""
    id: str
    content: str
    # 层级信息
    heading_path: List[str]  # 标题路径，如 ["第3章", "3.2节", "3.2.1小节"]
    # 元数据
    source: str              # 来源文档
    page_number: Optional[int] = None
    version: Optional[str] = None
    updated_at: Optional[str] = None
    # 切分信息
    chunk_index: int = 0     # 在原文中的位置
    overlap_with_prev: int = 0  # 与前一块的重叠字符数

class SemanticChunker:
    """语义感知的知识切分器"""

    def __init__(
        self,
        max_chunk_size: int = 512,
        overlap_size: int = 64,
        min_chunk_size: int = 100,
    ):
        self.max_chunk_size = max_chunk_size
        self.overlap_size = overlap_size
        self.min_chunk_size = min_chunk_size

    def chunk_document(self, doc: ParsedDocument) -> List[Chunk]:
        """
        对文档进行语义切分

        策略：
        1. 按标题层级切分为大块
        2. 对超过max_chunk_size的大块，按句子边界二次切分
        3. 相邻块之间保留overlap_size的重叠
        """
        chunks = []

        for section in doc.sections:
            heading_path = section.heading_path
            content = section.content.strip()

            if len(content) <= self.max_chunk_size:
                # 内容未超限，直接作为一个块
                chunks.append(Chunk(
                    id=f"{doc.source}_{'_'.join(heading_path)}_0",
                    content=content,
                    heading_path=heading_path,
                    source=doc.source,
                    page_number=section.page_number,
                    version=doc.version,
                    updated_at=doc.updated_at,
                    chunk_index=len(chunks),
                ))
            else:
                # 内容超限，按句子边界二次切分
                sub_chunks = self._split_by_sentences(
                    content, heading_path, doc.source
                )
                chunks.extend(sub_chunks)

        # 添加重叠窗口
        chunks = self._add_overlap(chunks)

        return chunks

    def _split_by_sentences(
        self,
        content: str,
        heading_path: List[str],
        source: str,
    ) -> List[Chunk]:
        """按句子边界切分长文本"""
        # 中文和英文的句子分割
        sentences = re.split(r'(?<=[。！？.!?])\s*', content)
        sentences = [s for s in sentences if s.strip()]

        chunks = []
        current_chunk = ""
        chunk_idx = 0

        for sentence in sentences:
            if len(current_chunk) + len(sentence) > self.max_chunk_size:
                if current_chunk:
                    chunks.append(Chunk(
                        id=f"{source}_{'_'.join(heading_path)}_{chunk_idx}",
                        content=current_chunk.strip(),
                        heading_path=heading_path,
                        source=source,
                        chunk_index=chunk_idx,
                    ))
                    chunk_idx += 1
                current_chunk = sentence
            else:
                current_chunk += sentence

        # 最后一个块
        if current_chunk.strip():
            chunks.append(Chunk(
                id=f"{source}_{'_'.join(heading_path)}_{chunk_idx}",
                content=current_chunk.strip(),
                heading_path=heading_path,
                source=source,
                chunk_index=chunk_idx,
            ))

        return chunks

    def _add_overlap(self, chunks: List[Chunk]) -> List[Chunk]:
        """为相邻块添加重叠窗口"""
        if len(chunks) <= 1:
            return chunks

        overlapped = [chunks[0]]

        for i in range(1, len(chunks)):
            prev_content = chunks[i - 1].content
            # 取前一块的最后overlap_size个字符作为重叠
            overlap_text = prev_content[-self.overlap_size:] \
                if len(prev_content) > self.overlap_size else prev_content

            new_content = overlap_text + chunks[i].content
            overlapped.append(Chunk(
                id=chunks[i].id,
                content=new_content,
                heading_path=chunks[i].heading_path,
                source=chunks[i].source,
                page_number=chunks[i].page_number,
                version=chunks[i].version,
                updated_at=chunks[i].updated_at,
                chunk_index=chunks[i].chunk_index,
                overlap_with_prev=len(overlap_text),
            ))

        return overlapped


# rag/retriever.py
from typing import List, Tuple
import numpy as np

@dataclass
class RetrievalResult:
    """检索结果"""
    chunk: Chunk
    score: float          # 相关性得分
    retrieval_type: str   # 'vector' | 'keyword' | 'metadata'

class HybridRetriever:
    """混合检索器：向量检索 + 关键词检索 + 元数据过滤"""

    def __init__(
        self,
        vector_store: VectorStore,
        keyword_index: KeywordIndex,
    ):
        self.vector_store = vector_store
        self.keyword_index = keyword_index

    async def retrieve(
        self,
        query: str,
        top_k: int = 5,
        # 元数据过滤条件
        filters: dict = None,
        # 各路召回的数量
        vector_top_k: int = 10,
        keyword_top_k: int = 10,
    ) -> List[RetrievalResult]:
        """
        多路召回 + 重排序

        1. 向量检索：语义相似度
        2. 关键词检索：精确匹配
        3. 元数据过滤：时间范围、文档类型
        4. 合并去重 + 重排序
        """
        # 向量检索
        vector_results = await self.vector_store.search(
            query=query, top_k=vector_top_k, filters=filters
        )

        # 关键词检索
        keyword_results = self.keyword_index.search(
            query=query, top_k=keyword_top_k
        )

        # 合并结果
        merged = self._merge_results(vector_results, keyword_results)

        # 重排序（使用交叉编码器或规则）
        reranked = self._rerank(query, merged)

        return reranked[:top_k]

    def _merge_results(
        self,
        vector_results: List[RetrievalResult],
        keyword_results: List[RetrievalResult],
    ) -> List[RetrievalResult]:
        """合并多路检索结果，去重"""
        seen = set()
        merged = []

        # 向量检索结果优先
        for result in vector_results:
            if result.chunk.id not in seen:
                seen.add(result.chunk.id)
                merged.append(result)

        # 关键词检索结果补充
        for result in keyword_results:
            if result.chunk.id not in seen:
                seen.add(result.chunk.id)
                merged.append(result)

        return merged

    def _rerank(
        self,
        query: str,
        results: List[RetrievalResult],
    ) -> List[RetrievalResult]:
        """
        重排序：综合语义相关性、关键词匹配度和时效性
        """
        for result in results:
            # 基础分：原始检索得分
            base_score = result.score

            # 时效性加分：越新的文档得分越高
            recency_bonus = 0
            if result.chunk.updated_at:
                # 简化实现：按天数衰减
                days_since_update = (
                    datetime.now() - datetime.fromisoformat(result.chunk.updated_at)
                ).days
                recency_bonus = max(0, 0.1 * (1 - days_since_update / 365))

            # 层级深度加分：标题层级越浅，信息越概括，优先级越高
            depth_bonus = max(0, 0.05 * (3 - len(result.chunk.heading_path)))

            result.score = base_score + recency_bonus + depth_bonus

        # 按综合得分降序排列
        results.sort(key=lambda x: x.score, reverse=True)
        return results

四、RAG的工程边界：何时需要更重的方案

四阶段RAG管线在中等规模场景下效果良好，但有几个明确的边界。

知识冲突消解。当多个检索到的块包含矛盾信息时（如新旧版本的条款），当前的实现只按时效性加分，无法真正判断哪个版本是"正确"的。更健壮的方案需要在元数据中标注版本链，检索时自动选择最新版本。

多跳推理。用户问"我们公司2024年的年假政策和2023年有什么区别"，需要先检索2024年政策，再检索2023年政策，然后对比。当前的单次检索无法处理这种多跳查询，需要引入查询分解和迭代检索。

大规模知识库。当文档数量超过百万级时，向量检索的延迟会显著增加。需要引入分层索引（先粗筛再精排）或分区索引（按文档类型/时间分区）来优化检索性能。

禁用场景：需要实时更新的知识（如股票行情）——RAG的索引更新有延迟；需要精确计算的场景（如数学公式推导）——RAG检索的是文本片段，不是计算引擎；需要严格合规审核的场景（如法律条文引用）——RAG可能检索到过时或不完整的条款。

五、总结

RAG架构的工程化核心是"四阶段管线"：文档解析提取结构、语义切分保留层级、混合检索多路召回、答案生成标注引用。Python实现的SemanticChunker按标题层级和句子边界切分，重叠窗口防止信息截断。HybridRetriever结合向量检索和关键词检索，重排序时考虑时效性和层级深度。RAG不是万能的——知识冲突、多跳推理和大规模知识库是当前方案的边界。在这些边界内，四阶段管线可以提供稳定可靠的检索增强能力。