一个LLM的成功问世,一般分为:预训练 PT+监督微调 SFT+偏好优化 PO。
预训练(Pre-Training)是为了让模型学习通用知识,而监督微调(Supervised Fine-Tuning)是为了优化模型在特定任务上的表现。为了进一步地提升 LLMs 的对话能力、以及对于人类价值观的对齐程度,偏好优化(Preference Optimization)被引入到了模型微调过程中。
一、预训练 PT
在 PT 阶段,LLM首先在大量的无标签数据上进行训练(无监督学习),目的是让模型学习到语言的统计规律和一般知识,得到的预训练模型被称为基座模型。在这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。
二、监督微调 SFT
传统微调最适合的场景是:我们希望“模型的回答逐个 token 都模仿提供的数据”,也就是逐字模仿。就像写作文,对范文进行模仿,措辞方式、语气词、标点符号的使用风格、排版风格等等都要去模仿。
这个学习过程导致了一些问题:
- 它对于预料的 token 级质量要求比较高。(无法让模型的学习过程知道“光学习它的语气就行了,排版格式不用学”)
- 需要足够多样性的数据,来确保模型学到的是我们期望它学到的相关性。(选择题学习到比率、或者问题题学习到长度)
通过传统微调训练的模型,在能力上实现阶跃。但模型缺少泛化能力,输出模式比较固定,遇到新的问题不能很好解决。并且,需要高质量的微调数据集。
应用:当我们把行业数据构建成数据集,通

:训练流程之PT、SFT和PO&spm=1001.2101.3001.5002&articleId=141333495&d=1&t=3&u=dee508bf08de45d48737d47345555145)
9390

被折叠的 条评论
为什么被折叠?



