openai模型个性化训练Embedding和fine-tuning区别

最新推荐文章于 2026-06-23 13:50:34 发布

原创最新推荐文章于 2026-06-23 13:50:34 发布 · 1.1k 阅读

本内容遵循CC 4.0 BY-SA版权协议

标签

#embedding #产品经理 #AI产品经理 #人工智能 #大模型

现在基于自然语言和文档进行对话的背后都是使用的基于嵌入的向量搜索。OpenAI在这方面做的很好，它的Cookbook（github.com/openai/openai-cookbook）上有很多案例，最近他们对文档做了一些更新。

GPT擅长回答问题，但是只能回答它以前被训练过的问题，如果是没有训练过的数据，比如一些私有数据或者最新的数据该怎么办呢？

微调就是在大模型的数据基础上做二次训练，事先准备好一批prompt-complition（类似于问答Q&A）的数据，生成新的模型，这个模型将会包含微调后的数据。

而嵌入则是每次向ChatGPT发送消息（prompt）的时候，把你自己数据结果带上。

王建硕老师对于微调和嵌入有过精妙的比喻：

ChatGPT就像一个已经训练好的家政阿姨，她懂中文，会做家务，但是对你家里的情况不了解。

微调就相当于阿姨第一次到你家干活的时候，你要花一小时时间告诉她家里的情况，比如物件的摆放、哪些地方不能动，哪些地方要重点照顾。

嵌入就相当于你省去了对阿姨进行二次培训的，而是在家里贴满纸条，这样阿姨一看到纸条就知道该怎么做了。

微调就像你通过学习准备考试，是一种长期记忆，但过了一周后考试来临，模型可能会忘记袭击，或者记错它从来没有读过的事实。

嵌入就像记笔记，是一种短期记忆，当考试的时候，你把笔记带上，随时翻看笔记，对于笔记上有的内容可以得到准确的答案。

另外嵌入的搜索提问方式相对于微调有一个缺点就是它每次附带的文本数量是有限制的，因为除了原始的问题，它还需要带上搜索出来的问题，GPT-3.5是4K（大约5页），GPT-4最大是32K（大约40页）。

就好比你有成书架的教科书可以借鉴，但每次却只能翻看其中几页笔记。

如果你想构建一个对大量文本问答的系统，OpenAI建议“搜索-问”（Search-Ask）的方法。

也就是先在本地文档库中Search，拿到本地的数据结果，再去Ask，把搜索结果和问题一起交给GPT，这样GPT可以根据你提供的内容以及它模型中的数据，一起将结果返还给你。

至于如何搜索，并非一定要基于向量的搜索，可以有多重搜索方式：

至于在技术上如何实现，OpenAI的Cookbook上也有详细的介绍。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

👉CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

在这里插入图片描述