论文翻译与注释：Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm

原创

已于 2022-04-17 16:48:57 修改 · 1.5k 阅读

标签

#人工智能

于 2022-04-17 15:32:31 首次发布

本文探讨了如何通过更全面的提示编程理论来控制GPT-3等大语言模型，包括零样本提示、元提示和序列化推理的应用。研究强调了提示在定位任务、避免误导和提升性能中的关键作用，并提出了未来研究的方向，如元学习与任务定位的分离、新型基准测试方法等。

论文翻译与注释

原始论文： https://doi.org/10.1145/3411763.3451760
(2022/4/17 下午3:28:15)

注释
(2022/4/17 下午4:48:01)

(Reynolds 和 McDonell, 2021, p. 1) 将大型生成语言模型映射到有监督任务中的现行方法可能无法充分探测模型的新能力。以GPT-3为例，我们展示了零样本提示可以明显优于小样本提示。我们建议，在这些情况下，小样本例子的功能最好被描述为定位一个已经学会的任务，而不是元学习。这一分析促使我们重新思考提示在控制和评估强大语言模型中的作用。我们讨论了提示编程的方法，强调了通过自然语言的视角考虑提示的有用性。我们探讨了利用叙事和记忆锚的能力来编码细微的意图的技术，以及鼓励在产生决策之前将问题解构为组成部分的技术。在这种更全面的提示性编程理论的启发下，我们还引入了元提示的概念，该模型可以为一系列的任务生成自己的自然语言提示。最后，我们讨论了如何将这些与语言模型互动的更普遍的方法纳入现有和未来的基准和实际应用中。

(Reynolds 和 McDonell, 2021, p. 1) 动机：
最近大规模自监督语言模型的兴起，如GPT-3[3]，以及它们在下游任务上的成功，使我们离任务无关的人工智能系统的目标又近了一步。然而，尽管这类模型具有明显的力量，但目前控制它们执行特定任务的方法却极为有限。为了正确评估它们的能力并从这些模型中提取有用的工作，需要新的方法。
在GPT-3之前，评估和使用这类模型的标准方法是在一部分任务数据集上进行微调[12]。GPT-3在各种任务上取得了最先进的性能，无需微调，只使用了小样本提示，其中已解决的任务（的样本）的例子被提供给训练的模型作为输入。然而，虽然小样本的形式足以揭示这些任务的惊人表现，但我们认为，在从自我监督的语言模型中提取特定的学习行为方面，新的提示方法可能比微调或小样本的形式更有效。

与Brown等人[3]撰写的GPT-3原始论文标题: 语言模型是小样本学习者，所暗示的解释相反,我们认为GPT-3在运行期间往往不是从小样本中实际学习任务。与其说是指导，不如说该方法的主要功能是在模型的现有学习任务空间中进行任务定位。这一点可以从替代性提示的有效性得到证明，在没有例子的情况下，替代性提示可以引起与小样本格式相当或更高的性能。

这促使我们采取新的方法，明确地追求任务定位的目标。我们建议探索更普遍的提示编程方法，特别是将任务意图和结构传达给以自然语言为训练模式的自我监督模型的技术。除了一些注意事项外，我们希望找到我们期盼人类完成预期任务的方式的提示。
在这项工作中，我们研究了小样本学习的范式，并发现它的性能可以被简单的零样本提示所匹配或超越。我们探讨了成功的零样本提示的性质，并通过自然语言符号学的视角提出了提示编程的一般方法。我们展示了新的提示，它迫使语言模型在产生决策之前将问题分解成若干部分，我们还介绍了元提示编程的概念，这种方法将编写特定任务提示的工作转移给语言模型本身。最后，我们讨论了如何将这些想法纳入现有和未来的基准，以使我们能够更好地探测大型语言模型的能力。

“With a few caveats” (Reynolds 和 McDonell, 2021, p. 1)

(Reynolds 和 McDonell, 2021, p. 1) 最近的文献工作集中在使用机器学习的传统方法来控制自然语言的生成，如对输出进行条件控制的新型架构[15，16]，更先进的采样技术[6，11]，基于梯度的提示优化[17，22]，和特定任务的适配器网络[25]。关于这些最新方法的调查见[24]。过去的工作还探索了通过为每个任务动态地选择最相关的例子来改进小样本学习的范式[9, 18]。

相比之下，关于提示性编程的自然语言方法的工作很少被正式化。相反，成功的提示编程技术主要是在OpenAI的API和AI Dungeon用户的博客和社交媒体上分享。
由于大多数对提示性编程的探索都采取了分散的形式，我们在此汇编所有相关的贡献是不可行的。相反，我们给出了以下简短的、非详尽的探索，这些探索已经超越了小样本学习的范式。

G. Branwen通过演示GPT3写小说、诗歌和执行PDF清理等任务，对GPT3的能力进行了最全面的调查。他写了大量关于他使用GPT-3工作的直觉和他的提示编程方法的文章[2]。Sabeti写了关于提示所提供的环境对写作质量的影响[21]。Robertson写了关于通过对话来放大GPT-3的数学能力，引导它把问题分成几个步骤[20]。推特用户Kar