在 RAG 场景下,对嵌入模型进行调优可以带来巨大的收益。
为什么需要调优嵌入模型?
开源的通用嵌入模型,比如 BGE-M3,虽然在各种任务上表现都不错,但它毕竟是“通用”的。你的特定领域知识、专业术语或独特的文本结构,通用模型可能无法完全理解。
例如,在医疗领域,“ECG” 和 “EKG” 都是心电图,但通用模型可能认为它们是两个不相关的词。通过调优,你可以教模型理解这类同义词和专业术语,从而在检索时能更精确地匹配用户的问题。
如何调优嵌入模型?
调优嵌入模型的过程,和我们前面讨论的大模型微调有些类似,但数据和目标不同。
1. 数据准备:构建高质量的训练集
这是最关键的一步。你需要准备一个包含正样本和负样本的数据集。
- 正样本:一对语义相似的文本。例如,一个问题和它对应的标准答案。
- 负样本:一对语义不相似的文本。例如,一个问题和另一个完全不相关的答案。
数据的质量直接决定了调优后的模型效果。你可以从你的知识库中手动或半自动地构建这些数据。
2. 选择调优方法
- 有监督微调:这是最常见的方法。你可以使
订阅专栏 解锁全文
&spm=1001.2101.3001.5002&articleId=150393144&d=1&t=3&u=45d43fd10d3c461881f36342293d65dc)
713

被折叠的 条评论
为什么被折叠?



