论文分享：Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads

原创

已于 2024-10-16 14:35:33 修改 · 1.3k 阅读

·

16

·

标签

#人工智能

于 2024-10-16 14:34:36 首次发布

论文题目：Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads

原文地址：链接

翻译稿（来自谷歌翻译）：

2401.11181-翻译稿.pdf

这篇论文主要讲的是大模型推理优化相关的内容。

题目

Inference without Interference: Disaggregate LLM Inference for Mixed Downstream Workloads

无干扰推理：混合下游工作负载的分解 LLM 推理

论文主要工作

这篇论文主要研究的是在大语言模型（LLM）的推理服务中，如何降低不同推理阶段之间的相互干扰，来提高推理服务的性能。

论文效果

论文的结果显示，TetriInfer 首个token生成时间（time-to-first-token，TTFT）、作业完成时间（job completion time，JCT）和推理成本效益（inference efficiency in terms of performance per dollar）方面都取得了大幅度的改进。具体来说，资源使用降低了38%，同时平均TTFT和平均JCT分别降低了97%和47%。

这篇论文的贡献是为LLM推理服务提供了一个优化的部署策略，旨在提高云服务中LLM的推理效率和成本效益。这

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。