学习 ChatGPT 必看的 10 篇论⽂

最新推荐文章于 2026-06-23 22:33:34 发布

原创最新推荐文章于 2026-06-23 22:33:34 发布 · 398 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#学习 #chatgpt

春联生成模型-中文-base

文本生成

GPT-3

春联生成模型是达摩院AliceMind团队利用基础生成大模型在春联场景的应用，该模型可以通过输入两字随机祝福词，生成和祝福词相关的春联。

学习 ChatGPT 必看的 10 篇论⽂

1.Transformer ChatGPT 使⽤的预训练模型 GPT，是在 Transformer 中的 decoder 基础上进⾏改造的。
论⽂标题：Attention Is All You Need
论⽂链接：https://arxiv.org/pdf/1706.03762.pdf
摘要：占主导地位的序列转导模型是基于复杂的递归或卷积神经⽹络，包括⼀个编码器和⼀个解码器。性能最好的模型还通过注意机制将编码器和解码器连接起来。我们提出了⼀个新的简单的⽹络结构–Transformer，它只基于注意⼒机制，完全不需要递归和卷积。在两个机器翻译任务上的实验表明，这些模型在质量上更胜⼀筹，同时也更容易并⾏化，需要的训练时间也⼤⼤减少。我们的模型在WMT 2014英德翻译任务中达到了28.4 BLEU，⽐现有的最佳结果（包括合集）提⾼了2 BLEU以上。在WMT 2014英法翻译任务中，我们的模型在8个GPU上训练了3.5天后，建⽴了新的单模型最先进的BLEU得分，即 41.0分，这只是⽂献中最佳模型的训练成本的⼀⼩部分。

2.GPT-3
GPT 家族与 BERT 模型都是知名的 NLP 预训练模型，都基于 Transformer 技术。GPT-1 只有12个 Transformer 层，⽽到了 GPT-3，则增加到 96 层。
论⽂标题：Language Models are Few-Shot Learners
论⽂链接：https://arxiv.org/pdf/2005.14165.pdf
摘要：最近的⼯作表明，在许多NLP任务和基准上，通过对⼤型⽂本语料库进⾏预训练，然后对特定的任务进⾏微调，可以获得巨⼤的收益。虽然在结构上通常是任务⽆关的，但这种⽅法仍然需要特定任务的微调数据集，包括⼏千或⼏万个例⼦。相⽐之下，⼈类通常只需通过⼏个例⼦或简单的指令就能完成⼀项新的语⾔任务–⽽⽬前的NLP系统在很⼤程度上仍难以做到这⼀点。在这⾥，我们展⽰了扩⼤语⾔模型的规模，⼤⼤改善了与任务⽆关的、少量的性能，有时甚⾄达到了与之前最先进的微调⽅法的竞争⼒。具体来说，我们训练了GPT-3，⼀个具有1750亿个参数的⾃回归语⾔模型，⽐以前的任何⾮稀疏语⾔模型多10倍，并测试了它在少数情况下的性能。对于所有的任务，GPT-3的应⽤没有任何梯度更新或微调，纯粹通过与模型的⽂本互动来指定任务和少量演⽰。GPT-3在许多NLP学习 ChatGPT 必看的 10 篇论⽂ 1 数据集上取得了强⼤的性能，包括翻译、回答问题和cloze任务，以及⼀些需要即时推理或领域适应的任务，如解读单词、在句⼦中使⽤⼀个新词或进⾏3位数的算术。同时，我们也发现了⼀些数据集，在这些数据集中，GPT-3的⼏率学习仍然很困难，还有⼀些数据集，GPT-3⾯临着与⼤型⽹络语料库训练有关的⽅法学问题。最后，我们发现，GPT-3可以⽣成⼈类评价者难以区分的新闻⽂章样本。我们讨论了这⼀发现和GPT-3总体上的更⼴泛的社会影响。

3.InstructGPT
ChatGPT 的训练流程，主要参考⾃ instructGPT ，ChatGPT 是改进的 instructGPT。
论⽂标题：Training language models to follow instructions with human feedback
论⽂链接：https://arxiv.org/pdf/2203.02155.pdf
摘要：让语⾔模型变得更⼤并不意味着它们能更好地遵循⽤户的意图。例如，⼤型语⾔模型可以产⽣不真实的、有毒的或根本对⽤户没有帮助的输出。换句话说，这些模型没有与⽤户保持⼀致。在本⽂中，我们展⽰了⼀个途径，通过⼈类反馈的微调，在⼴泛的任务中使语⾔模型与⽤户的意图保持⼀致。从⼀组标签员写的提⽰语和通过OpenAI API提交的提⽰语开始，我们收集了⼀组标签员演⽰的所需模型⾏为的数据集，我们利⽤监督学习对GPT-3进⾏微调。然后，我们收集模型输出的排名数据集，我们利⽤⼈类反馈的强化学习来进⼀步微调这个监督模型。我们把产⽣的模型称为InstructGPT。在⼈类对我们的提⽰分布的评估中，尽管参数少了100倍，但1.3B参数的InstructGPT模型的输出⽐175B的 GPT-3的输出更受欢迎。此外，InstructGPT模型显⽰了真实性的改善和有毒输出⽣成的减少，同时在公共NLP数据集上的性能回归最⼩。尽管InstructGPT仍然会犯⼀些简单的错误，但我们的结果表明，利⽤⼈类反馈进⾏微调是使语⾔模型与⼈类意图相⼀致的⼀个有希望的⽅向。

4.Sparrow
DeepMind 的 Sparrow，这个⼯作发表时间稍晚于 instructGPT，其⼤致的技术思路和框架与 instructGPT 的三阶段基本类似，不过明显Sparrow 在⼈⼯标注⽅⾯的质量和⼯作量是不如instructGPT的。反过来，Sparrow 中把奖励模型分为两个不同 RM 的思路，理论上是优于instructGPT 的。
论⽂标题：Improving alignment of dialogue agents via targeted human judgements
论⽂链接：https://arxiv.org/pdf/2209.14375.pdf
摘要：我们提出了Sparrow，⼀个寻求信息的对话代理，与提⽰的语⾔模型基线相⽐，它被训练得更有帮助，更正确，更⽆害。我们使⽤来⾃⼈类反馈的强化学习来训练我们的模学习 ChatGPT 必看的 10 篇论⽂ 2 型，并增加了两个新的内容来帮助⼈类评分者判断代理⾏为。⾸先，为了使我们的代理更有帮助和⽆害，我们将良好对话的要求分解为代理应该遵循的⾃然语⾔规则，并分别询问评分者每条规则。我们证明，这种分解使我们能够收集更有针对性的⼈类对代理⾏为的判断，并允许更有效的规则条件的奖励模型。第⼆，我们的代理在收集对模型声明的偏好判断时，提供⽀持事实性要求的来源的证据。对于事实问题，⿇雀提供的证据在78%的情况下⽀持采样的反应。Sparrow⽐基线更经常受到⻘睐，同时对⼈类的对抗性探测更有弹性，在被探测时只有8%的时间违反了我们的规则。最后，我们进⾏了⼴泛的分析，表明尽管我们的模型学会了遵循我们的规则，但它会表现出分布性的偏差。

5.RLHF
InstructGPT/GPT3.5（ChatGPT的前⾝）与 GPT-3 的主要区别在于，新加⼊了被称为 RLHF（Reinforcement Learning from Human Feedback，⼈类反馈强化学习）。这⼀训练范式增强了⼈类对模型输出结果的调节，并且对结果进⾏了更具理解性的排序。
论⽂标题：Augmenting Reinforcement Learning with Human Feedback
论⽂链接：https://www.cs.utexas.edu/~ai-lab/pubs/ICML_IL11-knox.pdf
摘要：随着计算代理越来越多地被⽤于研究实验室之外，它们的成功将取决于它们学习新技能和适应其动态、复杂环境的能⼒。如果⼈类⽤户–没有编程技能–能够将他们的任务知识转移给代理，那么学习就会⼤⼤加快，减少昂贵的试验。TAMER框架指导代理⼈的设计，其⾏为可以通过批准和不批准的信号来塑造，这是⼈类反馈的⼀种⾃然形式。最近，TAMER+RL被引⼊，使⼈类反馈能够增强传统的强化学习（RL）代理，该代理从⻢尔科夫决策过程（MDP）的奖励信号中学习。通过对TAMER和TAMER+RL的重新实现，我们解决了先前⼯作的局限性，在两个关键⽅向上做出了贡献。⾸先，我们在第⼆个任务上测试了先前TAMER+RL⼯作中结合⼈类强化和RL的四种成功技术，并分析了这些技术对参数变化的敏感性。这些检查共同产⽣了更多的⼀般性和规范性的结论，以指导那些希望将⼈类知识纳⼊RL算法的其他⼈。第⼆，TAMER+RL到⽬前为⽌仅限于顺序设置，即在从MDP奖励中学习之前发⽣训练。我们对顺序算法进⾏了修改，使其能够同时从两个来源进⾏学习，从⽽使⼈类的反馈能够在强化学习过程中的任何时候出现。为了实现同步学习，我们引⼊了⼀种新的技术，适当地确定⼈类模型在整个时间和状态动作空间对RL 算法的影响程度。

6.TAMER
ChatGPT 中的 TAMER（Training an Agent Manually via Evaluative Reinforcement，评估式强化⼈⼯训练代理）框架，将⼈类标记者引⼊到 Agents 的学习循环中，可以通过⼈类向 Agents 提供奖励反馈（即指导 Agents 进⾏训练），从⽽快速达到训练任务⽬标。
论⽂标题：Interactively Shaping Agents via Human Reinforcement
论⽂链接：https://www.cs.utexas.edu/~bradknox/papers/kcap09-knox.pdf
摘要：随着计算学习代理进⼊产⽣实际成本的领域（例如，⾃动驾驶或⾦融投资），有必要在没有⼤量⾼成本学习试验的情况下学习好的政策。减少学习任务的样本复杂性的⼀个有希望的⽅法是将知识从⼈类转移到代理⼈。理想情况下，转移的⽅法应该是任何拥有任务知识的⼈都可以使⽤的，不管这个⼈在编程和⼈⼯智能⽅⾯的专业知识如何。本⽂的重点是允许⼈类培训师通过强化信号互动地塑造⼀个代理的政策。具体来说，本⽂介绍了 “通过评估性强化训练代理”，即tamer，⼀个能够实现这种塑造的框架。与以前的交互式塑造⽅法不同，tamer代理对⼈类的强化进⾏建模，并通过选择预期会得到最多强化的⾏动来利⽤其模型。来⾃两个领域的结果表明，⾮专业⼈员可以在不定义环境奖励函数（如 MDP）的情况下训练驯兽师代理，并表明在驯兽师框架内的⼈类训练可以⽐⾃主学习算法降低样本的复杂性。

7.PPO
PPO（Proximal Policy Optimization，近端策略优化）强化学习模型，是 ChatGPT 训练的第三阶段。
论⽂标题：Proximal Policy Optimization Algorithms
论⽂链接：https://arxiv.org/pdf/1707.06347.pdf
摘要：我们为强化学习提出了⼀个新的策略梯度⽅法系列，它通过与环境的交互作⽤在数据采样和使⽤随机梯度上升优化⼀个 "代理 "⽬标函数之间交替进⾏。标准的策略梯度⽅法对每个数据样本进⾏⼀次梯度更新，⽽我们提出了⼀个新的⽬标函数，可以进⾏多次的⼩批量更新。我们称之为近似策略优化（PPO）的新⽅法具有信任区域策略优化（TRPO）的⼀些优点，但它们的实现要简单得多，更通⽤，并且具有更好的样本复杂性（经验上）。我们的实验在⼀系列基准任务上测试了PPO，包括模拟机器⼈运动和Atari 游戏，我们表明PPO优于其他在线策略梯度⽅法，并且总体上在样本复杂性、简单性和壁垒时间之间取得了有利的平衡。

8.In-Context Learning
ChatGPT 的认知能⼒不全是从语料的统计中习得的，他还有临场学习的能⼒，这种能⼒称作 In-Context Learning，学术界本⾝对这种能⼒也还没有充分理解。
8.1 Why Can GPT Learn In-Context
论⽂标题：Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers
论⽂链接：https://arxiv.org/pdf/2212.10559.pdf
摘要：⼤型预训练的语⾔模型显⽰了令⼈惊讶的语境学习（In-Context Learning，ICL）能⼒。通过⼀些⽰范性的输⼊-标签对，它们可以预测未⻅过的输⼊的标签，⽽⽆需额外的参数更新。尽管在性能上取得了巨⼤的成功，但ICL的⼯作机制仍然是⼀个开放的问题。为了更好地理解ICL的⼯作原理，本⽂将语⾔模型解释为元优化器，并将ICL理解为⼀种隐性的微调。从理论上讲，我们弄清楚了Transformer注意⼒有⼀个基于梯度下降的优化的双重形式。在此基础上，我们对ICL的理解如下。GPT⾸先根据⽰范实例产⽣元梯度，然后将这些元梯度应⽤于原始的GPT，建⽴ICL模型。在实验中，我们综合⽐较了 ICL和基于真实任务的显式微调的⾏为，以提供⽀持我们理解的经验证据。结果证明， ICL在预测层⾯、表征层⾯和注意⾏为层⾯的表现与显式微调类似。此外，受我们对元优化的理解启发，我们通过与基于动量的梯度下降算法的类⽐，设计了基于动量的注意⼒。它⽐⾹草式注意⼒持续更好的表现从另⼀个⽅⾯再次⽀持了我们的理解，更重要的是，它显⽰了利⽤我们的理解进⾏未来模型设计的潜⼒。

8.2 What learning algorithm is in-context learning
论⽂标题：What learning algorithm is in-context learning? Investigations with linear models
论⽂链接：https://arxiv.org/pdf/2211.15661.pdf
摘要：神经序列模型，特别是转化器，表现出显著的语境中学习的能⼒。它们可以从输⼊的标记例⼦序列（x,f(x)）中构建新的预测器，⽽⽆需进⼀步更新参数。我们研究了这样⼀个假设：基于转化器的语境中学习者通过在其激活中编码较⼩的模型，并在语境中出现新的例⼦时更新这些隐性模型，从⽽隐性地实施标准的学习算法。使⽤线性回归作为⼀个原型问题，我们为这个假设提供了三个证据。⾸先，我们通过构造证明，转化器可以实现基于梯度下降和闭式脊回归的线性模型的学习算法。第⼆，我们表明，经过训练的语境中的学习者与梯度下降、⼭脊回归和精确最⼩⼆乘回归计算的预测者密切匹配，随着转化器深度和数据集噪声的变化，在不同的预测者之间过渡，并在⼤宽度和⼤深度下收敛到⻉叶斯估计者。第三，我们提出了初步证据，证明in-context学习者与这些预测者共享算法特征：学习者的后期层⾮线性地编码权重向量和矩矩阵。这些结果表明，上下⽂学习在算法⽅⾯是可以理解的，⽽且（⾄少在线性情况下）学习者可以重新发现标准的估计算法。

9.Prompt ChatGPT 训练时的输⼊使⽤的是 Prompt，Prompt 是研究者们为了下游任务设计出来的⼀种输⼊形式或模板，它能够帮助预训练模型“回忆”起⾃⼰在预训练时“学习”到的东⻄。
论⽂标题：Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
论⽂链接：https://dl.acm.org/doi/pdf/10.1145/3560815
摘要：本⽂调查并组织了⾃然语⾔处理中的⼀个新范式的研究⼯作，我们称之为 “基于 prompt 的学习”。与传统的监督学习不同的是，传统的监督学习是训练⼀个模型来接受⼀个输⼊x并预测⼀个输出y作为P(y|x)，⽽基于提⽰的学习是基于语⾔模型，直接对⽂本的概率进⾏建模。为了使⽤这些模型来执⾏预测任务，原始输⼊x被使⽤模板修改成⼀个⽂本字符串 prompt x’，其中有⼀些未填充的槽，然后语⾔模型被⽤来概率性地填充未填充的信息，得到最终的字符串x，从中可以得出最终的输出y。由于⼀些原因，这个框架是强⼤和有吸引⼒的：它允许语⾔模型在⼤量的原始⽂本上进⾏预训练，并且通过定义⼀个新的 prompting 函数，模型能够进⾏少次甚⾄零次的学习，适应只有很少或没有标记数据的新场景。在本⽂中，我们介绍了这种有前途的范式的基本原理，描述了⼀套统⼀的数学符号，可以涵盖各种现有的⼯作，并沿着⼏个维度组织现有的⼯作，例如选择预训练的模型、prompts 和调整策略。为了让感兴趣的初学者更容易了解这个领域，我们不仅对现有的⼯作进⾏了系统的回顾，并对基于 prompt 的概念进⾏了⾼度结构化的分类，⽽且还发布了其他资源，例如，⼀个包括不断更新的调查的⽹站http URL，以及论⽂清单。

您可能感兴趣的与本文相关的镜像

春联生成模型-中文-base

文本生成

GPT-3

春联生成模型是达摩院AliceMind团队利用基础生成大模型在春联场景的应用，该模型可以通过输入两字随机祝福词，生成和祝福词相关的春联。