论文题目:Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads
原文地址:链接
翻译稿(来自谷歌翻译):
这篇论文主要讲的是大模型推理优化相关的内容。
题目
Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads
无干扰推理:混合下游工作负载的分解 LLM 推理
论文主要工作
这篇论文主要研究的是在大语言模型(LLM)的推理服务中,如何降低不同推理阶段之间的相互干扰,来提高推理服务的性能。
论文效果
论文的结果显示,TetriInfer 首个token生成时间(time-to-first-token,TTFT)、作业完成时间(job completion time,JCT)和推理成本效益(inference efficiency in terms of performance per dollar)方面都取得了大幅度的改进。具体来说,资源使用降低了38%,同时平均TTFT和平均JCT分别降低了97%和47%。
这篇论文的贡献是为LLM推理服务提供了一个优化的部署策略,旨在提高云服务中LLM的推理效率和成本效益。这


9472

被折叠的 条评论
为什么被折叠?



