LLM推理部署（二）：英伟达LLM推理部署工具TensorRT-LLM

最新推荐文章于 2026-05-19 16:51:45 发布

原创

最新推荐文章于 2026-05-19 16:51:45 发布 · 2.4k 阅读

标签

#chatgpt

本文介绍了NVIDIA的TensorRT-LLM，一款针对大模型优化的推理加速引擎，基于TensorRT，支持多种GPU并行和量化，简化部署流程，尤其强调了性能提升和资源管理的效率。

在大模型时代，各大公司在陆续推出和优化各自的底座大模型，不断刷新榜单，然而大模型的超大参数给生产部署带来了很大的困难，由此也带来大模型部署框架的蓬勃发展（可以参考之前写的LLM推理部署（一）：LLM七种推理服务框架总结），本文将介绍英伟达(NVIDIA)在TensorRT基础上针对LLM优化所推出的推理加速引擎TensorRT-LLM（https://nvidia.github.io/TensorRT-LLM/）。

TensorRT-LLM介绍

TensorRT-LLM针对主流LLM使用TensorRT在GPU高效推理的能力，以NVIDIA Triton（https://developer.nvidia.com/nvidia-triton-inference-server）推理服务器集成为后端，可以在python和C++环境下运行，并且支持单GPU和多GPU（Tensor并行和Pipeline并行）推理，同时也支持量化模式。

TensorRT-LLM为用户提供了一个易于使用的Python API，类似PyTorch API，比如包含einsum、softmax、matmul或view等功能，layer模块（https://github.com/NVIDIA/TensorRT-LLM/blob/release/0.5.0/tensorrt_llm/layers）提供了一些常用的LLM组件，比如Attention、MLP或者完整的Transformer等。主要的python API如下图所示：

TensorRT-LLM安装

对于windows操作系统可以参考：https://github.com/NVIDIA/TensorRT-LLM/blob/release/0.5.0/windows

TensorRT-LLM必须从源码安装，参考链接如下：https://github.com/NVIDIA/TensorRT-LLM/blob/release/0.5.0/docs/source/installation.md

TensorRT-LLM使用

使用TensorRT-LLM部署大模型大致分为如下三个步骤：

下载预训练模型权重；
创建大模型的全优化引擎；
部署该引擎

下面以BLOOM-560m模型为例介绍使用TensorRT-LLM部署大模型的步骤：

Step0：在docker容器中安装所需要的环境

pip install -r examples/bloom/requirements.txtgit lfs install

Step1：从Huggingface中下载BLOOM-650m模型

cd examples/bloomrm -rf ./bloom/560Mmkdir -p ./bloom/560M && git clone https://huggingface.co/bigscience/bloom-560m ./bloom/560M

最低0.47元/天解锁文章