LLM概念梳理（一）：训练流程之PT、SFT和PO

最新推荐文章于 2026-03-28 21:06:47 发布

原创

最新推荐文章于 2026-03-28 21:06:47 发布 · 2.5k 阅读

·

9

·

标签

#人工智能 #深度学习 #LLMs

一个LLM的成功问世，一般分为：预训练 PT+监督微调 SFT+偏好优化 PO。

预训练（Pre-Training）是为了让模型学习通用知识，而监督微调（Supervised Fine-Tuning）是为了优化模型在特定任务上的表现。为了进一步地提升 LLMs 的对话能力、以及对于人类价值观的对齐程度，偏好优化（Preference Optimization）被引入到了模型微调过程中。

一、预训练 PT

在 PT 阶段，LLM首先在大量的无标签数据上进行训练（无监督学习），目的是让模型学习到语言的统计规律和一般知识，得到的预训练模型被称为基座模型。在这个过程中模型能够学习到词语的语义、句子的语法结构、以及文本的一般知识和上下文信息。

二、监督微调 SFT

传统微调最适合的场景是：我们希望“模型的回答逐个 token 都模仿提供的数据”，也就是逐字模仿。就像写作文，对范文进行模仿，措辞方式、语气词、标点符号的使用风格、排版风格等等都要去模仿。

这个学习过程导致了一些问题：

它对于预料的 token 级质量要求比较高。（无法让模型的学习过程知道“光学习它的语气就行了，排版格式不用学”）
需要足够多样性的数据，来确保模型学到的是我们期望它学到的相关性。（选择题学习到比率、或者问题题学习到长度）

通过传统微调训练的模型，在能力上实现阶跃。但模型缺少泛化能力，输出模式比较固定，遇到新的问题不能很好解决。并且，需要高质量的微调数据集。

应用：当我们把行业数据构建成数据集，通

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。