Speculative Contrastive Decoding
受推测解码和对比解码的启发,我们介绍了推测对比解码,此方法结合了推测解码和对比解码,读这篇论文就想看看怎么算结合的
摘要
大型语言模型(llm)在语言任务中表现出优异的性能,但由于高计算要求,它们的自回归推理受到限制,并且由于暴露偏差而不是最优的。受推测解码和对比解码的启发,我们介绍了推测对比解码(SCD),这是一种简单而强大的解码方法,利用较小的语言模型(lm)的预测来实现解码加速和质量改进。对四种不同语言任务的广泛评估和分析证明了SCD的有效性,表明一个较小的LM可以兼容地提高解码效率和质量。
引言
大型语言模型(llm)提高了接近现实世界自然语言任务(如一般指令遵循和推理)的通用性和熟练程度。大多数现有llms建立在仅解码器的变压器上。由于推理过程中的自回归性质,解码推理在一般计算基础设施上的运行时间可能会过长,并且由于暴露偏差,生成质量可能会达到次优(Arora et al, 2022)。改进解码推理一直是语言生成研究界关注的焦点(Vijayakumar等人,2018;Holtzman et al, 2020;Su et al, 2022)。
在解码加速方面,有一种比较突出的方法叫做推测解码(Leviathan et al ., 2022;Chen等人,2023)已经提出并利用相对较小的语言模型(lm)来预测目标llm的几个连续token代。llm只需要一次前向计算来检查来自较小lm的预测的有效性。解码方法保持目标llm的token分布,当较小的LMs能够准确预测潜在的目标llm的token时,解码方法加速更快。
对比解码通过比较较小的LMs和较大的LMs之间的token分布来消除这种系统误差。可以使drafter产生的tokens更好
在生成质量方面,最近提出了对比解码(Li et al ., 2023a)。对比解码假设成对较小的LMs比较大的LMs更容易产生错误的令牌,该方法试图通过比较较小的LMs和较大的LMs之间的令牌分布来消除这种系统误差。从推理加速或质量改进来看,这些工作通过在自回归生成过程中集成更小的lm显示了一个有希望的方向。
受推测和对比解码的启发,我们提出了推测对比解码(SCD),它利用单个较小的LM来提高解码的速度和质量。对四种不同任务的综合评价表明,SCD在保持对比译码质量提高的同时,可以获得与推测译码相似的加速因子。通过进一步分析SCD中大小LMs的令牌分布,我们展示了解码加速和质量改进的内在兼容性。本文的贡献可以概括如下:
•我们提出了有效的LLM推理的投机对比解码。
•综合实验和分析说明了推测和对比解码在4种不同任务上的兼容性。
相关工作
在推理加速方面,最近的研究致力于开发各种有效的解码方法(Yao 等人,2022;Kwon 等人,2023;Cai 等人,2023)。推测解码 Leviathan 等人(2022);Chen 等人(2023);Kim 等人(2023)是这些近期研究之一,利用较小的模型进行加速。Miao 等人 (2023);Spector 和 Re(2023)建议将小型 LM 的预测组织成树结构,以进一步加速推测解码。 在推理质量方面,已经提出了丰富


5061

被折叠的 条评论
为什么被折叠?



