GPT系列
大模型

GPT演进路线图

预备知识
Transformer 结构图

GPT-1

首先使用未标注的数据训练一个预训练语言模型,然后再使用有标注的数据在子任务上做微调。
下图为Transformer Decoder 和 GPT1结构图的对比

GPT只能关注上文的信息,无法关注到下文的信息。
无监督预训练
GPT使用标准的语言模型的目标函数来最大化似然函数:

语言模型就是要预测第 i 个词出现的概率
Transformer 编码器和解码器的区别:输入一个序列到编码器中,对第 i 个元素抽取特征的时候,可以看到整个序列的所有元素,而对于解码器来说,因为有掩码的存在,在对第 i 个元素抽取特征的时候,只能看到当前元素和它前边的元素,它后边的元素通过一个掩码使得在计算注意力机制的时候变为0。
GPT和BERT的区别:
BERT 用的不是标准的语言模型,用的是一个带掩码的语言模型,是一个完形填空,给定


3万+

被折叠的 条评论
为什么被折叠?



