大模型推理：大模型推理部署框架汇总

原创

已于 2025-05-15 09:11:53 修改 · 1k 阅读

·

8

·

标签

#大模型部署 #docker #推理引擎综述 #大模型推理引擎选型

于 2025-05-12 17:16:44 首次发布

一、信息来源

本文章是对韩国科学技术研究院于2025年5月8号发布的大模型推理服务框架综述文章《ASurvey on Inference Engines for Large Language Models:Perspectives on Optimization and Efficiency》做一个记录，方便后续查阅。

论文Github: https://github.com/sihyeong/Awesome-LLM-Inference-Engine

二、LLM推理流程

大模型结构和主流的Attention机制：当前大模型的架构基本是Decoder架构，也基本采用MQA（可通过config.json文件的num_key_value_heads查看分组信息，比如值为2，则是2个Query共享一对Key/Value值）。
大模型推理流程：自回归解码（TTFT-首Token到达时间，TBT-Token与Token生成之间的时间间隔，Latency-输入至输出所耗费的时间）

三、论文重点关注点

大模型推理引擎选型时，根据以下四个方向，结合自己的使用场景，基本上都能够选定合适的推理引擎，根据个人经验，vLLM、Sglang适合大多数场景，但拥有一定的上手门槛，个人本地尝鲜Ollama足够了。补充个信息，Mac M芯片上部署大模型推荐使

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。