大模型的Temperature、Top-P、Top-K、Greedy Search、Beem Search

原文链接:【2】模型的解码策略 Decoding Strategy

目录


0. 问题

在使用大语言模型中,我们可以看到在对话界面的侧面有一些参数可调,在此之前只是简单实用用,没有细究过参数是什么,有什么作用。
下面就来研究下
image.png

1. 解码策略 (Decoding Strategy) 概述

解码策略是指在模型进行推理(Inference)时,如何从预测的概率分布中选择下一个词元(Token)的方法。当模型根据输入文本预测下一个词元时,它会为词汇表中的所有词元生成一个概率分布。不同的选择策略会产生完全不同的输出文本,影响生成内容的相关性、多样性和创造性。
image.png

主要讨论的解码策略包括:

  • Greedy Search
  • Beam Search
  • Top-K Sampling
  • Top-P (Nucleus) Sampling
  • Temperature

2. Greedy Search (贪心搜索)

Greedy Search 是最直接、最常用(约99%的情况下)的解码策略,也是许多大语言模型的默认设置。

  • 核心机制:在每一步推理时,永远选择当前概率最高的那个词元作为输出。
  • 优点
    • 速度最快:计算开销最小,因为它只考虑一个选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值