论文分享:Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads

论文题目:Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads

原文地址:链接

翻译稿(来自谷歌翻译):

2401.11181-翻译稿.pdf

这篇论文主要讲的是大模型推理优化相关的内容。

题目

Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads

无干扰推理:混合下游工作负载的分解 LLM 推理

论文主要工作

这篇论文主要研究的是在大语言模型(LLM)的推理服务中,如何降低不同推理阶段之间的相互干扰,来提高推理服务的性能。

论文效果

论文的结果显示,TetriInfer 首个token生成时间(time-to-first-token,TTFT)、作业完成时间(job completion time,JCT)和推理成本效益(inference efficiency in terms of performance per dollar)方面都取得了大幅度的改进。具体来说,资源使用降低了38%,同时平均TTFT和平均JCT分别降低了97%和47%。

这篇论文的贡献是为LLM推理服务提供了一个优化的部署策略,旨在提高云服务中LLM的推理效率和成本效益。这

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值