GPT系列探索:深入理解大模型学习

GPT系列

大模型

GPT演进路线图

预备知识

Transformer 结构图

GPT-1

首先使用未标注的数据训练一个预训练语言模型,然后再使用有标注的数据在子任务上做微调。

下图为Transformer Decoder 和 GPT1结构图的对比

GPT只能关注上文的信息,无法关注到下文的信息。

无监督预训练

GPT使用标准的语言模型的目标函数来最大化似然函数:

语言模型就是要预测第 i 个词出现的概率

Transformer 编码器和解码器的区别:输入一个序列到编码器中,对第 i 个元素抽取特征的时候,可以看到整个序列的所有元素,而对于解码器来说,因为有掩码的存在,在对第 i 个元素抽取特征的时候,只能看到当前元素和它前边的元素,它后边的元素通过一个掩码使得在计算注意力机制的时候变为0。

GPT和BERT的区别:

BERT 用的不是标准的语言模型,用的是一个带掩码的语言模型,是一个完形填空,给定

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值