GPT系列探索：深入理解大模型学习

最新推荐文章于 2026-03-18 01:38:08 发布

原创

最新推荐文章于 2026-03-18 01:38:08 发布 · 1.3k 阅读

标签

#gpt #学习

收录于

GPT系列

预备知识
GPT-1
- 无监督预训练
  - 有监督的微调
  - 训练
GPT-2
- 数据集：
GPT-3
- 模型
InstructGPT
GPT-4
- GPT-4 新特性
  - 基础能力
参考文献

大模型

GPT演进路线图

预备知识

Transformer 结构图

GPT-1

首先使用未标注的数据训练一个预训练语言模型，然后再使用有标注的数据在子任务上做微调。

下图为Transformer Decoder 和 GPT1结构图的对比

GPT只能关注上文的信息，无法关注到下文的信息。

无监督预训练

GPT使用标准的语言模型的目标函数来最大化似然函数：

语言模型就是要预测第 i 个词出现的概率

Transformer 编码器和解码器的区别：输入一个序列到编码器中，对第 i 个元素抽取特征的时候，可以看到整个序列的所有元素，而对于解码器来说，因为有掩码的存在，在对第 i 个元素抽取特征的时候，只能看到当前元素和它前边的元素，它后边的元素通过一个掩码使得在计算注意力机制的时候变为0。

GPT和BERT的区别：

BERT 用的不是标准的语言模型，用的是一个带掩码的语言模型，是一个完形填空，给定

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

fengbeely

关注关注

18
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

OpenAI开发系列（一）：一文搞懂大模型、GPT、ChatGPT等AI概念

热门推荐

无敌小怪兽_Zz的博客

06-27

3万+

揭示了人工智能、大模型、GPT、以及ChatGPT的概念及它们潜在关系。希望这篇文章为你解开了这些概念的纷繁复杂

参与评论您还未登录，请先登录后发表或查看评论

【GPT】深入浅出讲解大模型之GPT系列（GPT-1、GPT-2、GPT-3）

程序星空实验室

09-05

2759

GPT（Generative Pre-trained Transformer）是一个由OpenAI开发的自然语言处理模型，它代表了人工智能领域的一次重大突破。GPT模型的核心是Transformer架构，这是一种使用自注意力机制的深度学习模型，能够捕捉输入数据中长距离的依赖关系。Transformer的设计允许模型在处理序列数据时，能够同时考虑到序列中各个元素的上下文信息，这对于理解和生成自然语言至关重要。

一文彻底搞懂大模型 - GPT和LlaMA的模型架构

python123456_的博客

09-02

2714

该模型通过无监督学习的方式，对大规模文本进行学习和抽象概括，进而通过微调的方式用于各种特定的自然语言处理任务。

技术科普与解读：ChatGPT 大模型硬核解读！（三）GPT-4的多模态架构

06-17

3396

本文选自《GPT-4核心技术分析报告》的第2章的简写版（无公式版）。前两节从GPT家族的发展历史开始，讲解GPT-4的多模态架构和GPT-4中的关键技术。作者陈巍博士为AI/存算一体专家，曾担任华为系自然语言处理企业的首席科学家。技术科普与解读：ChatGPT 大模型硬核解读！（一）家族历史从GPT-1到ChatGPT技术科普与解读：ChatGPT 大模型硬核解读！（二）GPT4 的多模态涌现能力...

大模型学习之GPT系列

学无止境

12-15

1852

大模型GPT演进路线图。

【机器学习】通用大模型VS垂直大模型，你更加青睐哪一方？

小5聊的博客

06-13

3269

AI大模型的战场正在分化：通用大模型在落地场景更广泛毋庸置疑，垂直大模型的落地有更高的可能性和更快的普及速度，谁能先形成绝对优势还没有肯定的答案。对于大模型的第一个赛点，你更青睐哪一方呢？

《GPT图解：大模型是怎样构建的》——AI大模型入门神作！

2301_81888214的博客

07-23

1015

如果你对GPT、Transformer、大语言模型（LLM）感兴趣，黄佳的《GPT图解：大模型是怎样构建的》是一本不可错过的入门书籍！

动手学大模型应用开发，第1天：学习大模型必知必会

AAI666666的博客

02-27

1035

动手学大模型应用开发，第1天：学习大模型必知必会

深入探索GPT-2：学习资源推荐指南

gitblog_02848的博客

01-15

656

探索GPT的无穷潜力：从基础到实践，再到创新应用

最新发布

gitblog_00052的博客

03-18

490

在这个快速发展的科技时代，GPT（Generative Pre-trained Transformer）正引领着自然语言处理的新潮流。由OpenAI开发的GPT是一个强大的大型语言模型，其基于Transformer架构，在Azure OpenAI平台上提供服务。这个开源项目集合了大量资源，旨在帮助开发者和数据科学家深入了解GPT的基础，探索实际应用场景，并通过一系列示例解决日常问题。 ## 项目

GPT大模型使用心得体会

eaglejava2015的博客

05-09

1832

但是，在使用GPT时，我们也要注意避免过度依赖，保持自己的思维锻炼，避免丧失个人的创新性。-----------------------------------------以下内容由大模型根据xmind脑图大纲生成--------------------------------------------因此，在使用GPT时，我们应该保持警惕，避免过度依赖它，要时刻保持自己的思维锻炼。很多时候，GPT能够给出我们没有想到的解决方案，从而开阔了我们的思路，帮助我们更好地解决问题。

深入解析 GPT 系列模型：核心原理、应用与未来发展

hello.reader

10-04

8338

GPT（Generative Pre-trained Transformer）是由 OpenAI 开发的一类生成式预训练语言模型。基于 Transformer 架构，GPT 模型具备强大的自然语言处理能力，能够通过自回归方式生成文本。自首次推出以来，GPT 系列模型在多个领域的文本生成任务中表现出色，并在语言建模、文本生成、对话系统等任务中取得了显著的成果。GPT 系列模型的核心优势在于其预训练-微调（Pre-training & Fine-tuning）的训练策略。

探索GPT-4：人工智能解决问题的新工具

我先测了

12-30

782

长文梳理！近年来GPT系列模型的发展历史：从GPT-1到GPT-4o（前世、今生）

m0_59235245的博客

06-18

1万+

尽管GPT系列模型在人工智能领域取得了显著的科研进展，但它们仍然存在一些局限性，比如在某些情况下可能会生成带有事实错误的幻觉或具有潜在风险的回应。面对这些挑战，开发更智能、更安全的大语言模型被看作是一项长期的研究任务。为了有效降低使用这些模型的潜在风险，OpenAI采取了迭代部署策略，通过多阶段的开发和部署过程，持续对模型和产品进行改进和优化。这种策略体现了在整个生命周期中对安全性和有效性的关注，以确保大语言模型能够稳健发展，同时应对新出现的问题和挑战。

【文末福利送资料】深度探索GPT模型，竟然10个字都不会说？

CDB3399的博客

05-14

1243

并不是所有机器学习模型都有这个缺点，例如围棋战力单位“狗”（AlphaGo），在其蒙特卡罗搜索树算法中，如果搜到了胜率过低的结果，会修订之前的选择。从人类的观点下看，如果有恰好10个字的要求，那就不应该一口气说9个字，应该每说一个字，都得斟酌下看看剩下的字数能不能组成一句完整通顺的话。学生又翻了一通词典，按照出现频率的大小估计概率，再用概率依次猜出了第三个，第四个字母，是chat。换到说恰好10个字的任务中，肯定有许多人和小编一样，估计错了10个字的量，一口气说多了。GPT是这样解决这个问题的。

《GPT图解—大模型是怎样构建的》学习（第一天）

qq_68194416的博客

04-27

2983

GPT-4可以跨越任务和领域的限制，解决数学、编码、视觉等领域中新颖或困难的任务，通过将各种类型的任务统一到对话形式的人机交互接口，极大地提高了使用的便利性。这样无论是谁，都能够通过对话简单地操作它。这种，正是（AGI）的显著特征。

全面解析：大模型与AI技术——以GPT为例

q_2625289483_q的博客

06-09

413

生成式预训练Transformer模型，通常称为GPT，是一系列使用Transformer架构的神经网络模型，是为ChatGPT等生成式人工智能应用程序提供支持的人工智能（AI）的一项关键进展。GPT模型使应用程序能够创建类似人类的文本和内容（图像、音乐等），并以对话方式回答问题。各行各业的组织正在将GPT模型和生成式人工智能用于问答机器人、文本汇总、内容生成和搜索。GPT模型是一种深度学习模型，采用了Transformer架构，可用于自然语言处理（NLP）任务。

一文读懂：GPT全系列大模型

zyjwjck的博客

03-15

1734

GPT系列模型的整体情况如下图：第一部分：GPT-1论文由 Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever 等人撰写的论文，对当代自然语言处理（NLP）领域产生了深远的影响。这篇论文首次介绍了GPT（Generative Pre-Training）模型，这是一个基于Transformer架构的大规模无监督学习语言模型。理解语言任何一种人类语言都像是一个包含成千上万碎片的庞大而复杂的拼图。

第二篇：大模型技术进化之GPT-1,2,3

last_dance520的博客

01-14

1076

同时通过in context的数据结构，让模型能够通过context中的prompt理解所要完成的任务，以便可以更好的对齐到下游任务中去。但是很多实验也表明，GPT-2的无监督学习的能力还有很大的提升空间，甚至在有些任务上的表现不比随机的好。GPT-2表明随着模型容量和数据量的增大，其潜能还有进一步开发的空间，基于这个思想，诞生了我们下面要介绍的GPT-3。那么下一步，就是如何将GPT-3习得的知识更好的对齐到下游任务中，真正让其发挥作用，这也就是ChatGPT要做的事。但是，GPT-1也有一定的缺点。