
介绍
Prompt 对于人与大型语言模型的交互至关重要。但通过Prompt传递有效信息面临诸多挑战:长Prompt的高处理成本、冗余与噪声导致的性能下降,以及由于位置偏见造成的选择性信息丢失。我们提出了LLMLingua系列方法,通过Prompt Compression结合Reorganization来解决上述问题。LLMLingua能有效缓解'lost in the middle'问题,提升21.4%并仅使用1/4的tokens。
分享题目
LLMLingua: 压缩prompt构造LLMs的语言
内容
Long Context Prompt存在的挑战.
Related Works.
LLMLingua[1] 以及 LongLLMLingua[2] 方法,以及Emprical Evidence.
Evulation and Case study.
Takeaway
QA
分享嘉宾

姜慧强,MSRA Shanghai RSDE,分别于浙江大学和北京大学取得学士和硕士学位。他的研究方向集中于高效推理、训练方法,包括提示压缩、KV-Cache压缩、Speculative Decoding、模型压缩、稀疏推理以及神经网络架构搜索。此外,他还曾从事于自然语言处理中的典型子问题信息提取的研究。
预约
时间
2024.1.28 10:30-11:30
本周日上午不见不散~
进群
为了方便讨论,建立了一个交流群,分享嘉宾也在里面,可以面对面探讨更多细节~

参考资料
[1]
LLMLingua: LLMLingua:_Compressing_Prompts_for_Accelerated_Inference_of_Large_Language_Models
[2]LongLLMLingua: LongLLMLingua:_Accelerating_and_Enhancing_LLMs_in_Long_Context_Scenarios_via_Prompt_Compression
本文介绍了LLMLingua系列方法,通过PromptCompression和Reorganization技术应对长Prompt带来的处理成本高、性能下降及位置偏见等问题,有效提升了21.4%,且减少了token使用。研究者姜慧强分享了其在高效推理领域的研究成果。

3360

被折叠的 条评论
为什么被折叠?



