原文链接:【2】模型的解码策略 Decoding Strategy
目录
- 0. 问题
- 1. 解码策略 (Decoding Strategy) 概述
- 2. Greedy Search (贪心搜索)
- 3. Beam Search (束搜索)
- 4. 代码实践演示:Greedy Search vs. Beam Search
- 5. Top-K Sampling
- 6. Top-P (Nucleus) Sampling
- 7. Temperature (温度)
- 8. 总结与实际应用
- 总结
0. 问题
在使用大语言模型中,我们可以看到在对话界面的侧面有一些参数可调,在此之前只是简单实用用,没有细究过参数是什么,有什么作用。
下面就来研究下

1. 解码策略 (Decoding Strategy) 概述
解码策略是指在模型进行推理(Inference)时,如何从预测的概率分布中选择下一个词元(Token)的方法。当模型根据输入文本预测下一个词元时,它会为词汇表中的所有词元生成一个概率分布。不同的选择策略会产生完全不同的输出文本,影响生成内容的相关性、多样性和创造性。

主要讨论的解码策略包括:
Greedy SearchBeam SearchTop-K SamplingTop-P (Nucleus) SamplingTemperature
2. Greedy Search (贪心搜索)
Greedy Search 是最直接、最常用(约99%的情况下)的解码策略,也是许多大语言模型的默认设置。
- 核心机制:在每一步推理时,永远选择当前概率最高的那个词元作为输出。
- 优点:
- 速度最快:计算开销最小,因为它只考虑一个选择。


1358

被折叠的 条评论
为什么被折叠?



