构建大语言模型的四个主要阶段

原创

已于 2024-03-01 14:06:33 修改 · 4.7k 阅读

标签

于 2024-02-28 00:00:00 首次发布

大规模语言模型的发展历程虽然只有短短不到五年的时间，但是发展速度相当惊人，国内外有超过百种大模型相继发布。中国人民大学赵鑫教授团队在文献按照时间线给出 2019 年至 2023 年比较有影响力并且模型参数量超过 100 亿的大规模语言模型。大规模语言模型的发展可以粗略的分为如下三个阶段：基础模型、能力探索、突破发展。

大语言模型构建通常包含以下四个主要阶段：预训练、有监督微调、奖励建模和强化学习，简要介绍各阶段使用的算法、数据、难点以及实践经验。

预训练

需要利用包含数千亿甚至数万亿单词的训练数据，并借助由数千块高性能 GPU 和高速网络组成的超级计算机，花费数十天完成深度神经网络参数的训练。这一阶段的核心难点在于如何构建训练数据以及如何高效地进行分布式训练。

预训练阶段是大规模语言模型训练的关键步骤之一，特别是对于GPT（Generative Pre-training Transformer）系列模型而言。在预训练阶段，模型通过自我监督学习（Self-supervised Learning）的方式，利用海量无标签的互联网文本数据集进行训练。具体来说，GPT模型采用了自回归语言模型的形式，其核心任务是根据给定的文本序列预测下一个可能出现的单词。

模型通过Transformer架构的多层自注意力机制学习到文本序列中词汇之间的深层上下文依赖关系。在训练过程中，模型试图最小化预测下一个单词的交叉熵损失，从而逐步建立起对自然语言规律的深刻理解，其中包括词汇搭配、语法结构、短语和句子的意义等。

通过预训练，模型能够在大规模无标注数据上习得通用的语言表示，这些表示可以被进一步应用于多种不同的自然语言处理任务中，只需要在预训练模型的基础上进行微调，就可以在特定任务上达到相当出色的性能。这极大地降低了对大量有标注数据的依赖，并为多种下游任务提供了强有力的模型基础。

有监督微调阶段

利用少量高质量的数据集，其中包含用户输入的提示词（ Prompt ）和对应的理想输出结果。提示词可以是问题、闲聊对话、任务指令等多种形式和任务。这个阶段是从语言模型向对话模型转变的关键，其核心难点在于如何构建训练数据，包括训练数据内部多个任务之间的关系、训练数据与预训练之间的关系以及训练数据的规模。

有监督微调是预训练模型适应特定任务的关键步骤。在完成了大规模无