在大模型时代,各大公司在陆续推出和优化各自的底座大模型,不断刷新榜单,然而大模型的超大参数给生产部署带来了很大的困难,由此也带来大模型部署框架的蓬勃发展(可以参考之前写的LLM推理部署(一):LLM七种推理服务框架总结),本文将介绍英伟达(NVIDIA)在TensorRT基础上针对LLM优化所推出的推理加速引擎TensorRT-LLM(https://nvidia.github.io/TensorRT-LLM/)。
TensorRT-LLM介绍
TensorRT-LLM针对主流LLM使用TensorRT在GPU高效推理的能力,以NVIDIA Triton(https://developer.nvidia.com/nvidia-triton-inference-server)推理服务器集成为后端,可以在python和C++环境下运行,并且支持单GPU和多GPU(Tensor并行和Pipeline并行)推理,同时也支持量化模式。
TensorRT-LLM为用户提供了一个易于使用的Python API,类似PyTorch API,比如包含einsum、softmax、matmul或view等功能,layer模块(https://github.com/NVIDIA/TensorRT-LLM/blob/release/0.5.0/tensorrt_llm/layers)提供了一些常用的LLM组件,比如Attention、MLP或者完整的Transformer等。主要的python API如下图所示:

TensorRT-LLM安装
对于windows操作系统可以参考:https://github.com/NVIDIA/TensorRT-LLM/blob/release/0.5.0/windows
TensorRT-LLM必须从源码安装,参考链接如下:https://github.com/NVIDIA/TensorRT-LLM/blob/release/0.5.0/docs/source/installation.md
TensorRT-LLM使用
使用TensorRT-LLM部署大模型大致分为如下三个步骤:
-
下载预训练模型权重;
-
创建大模型的全优化引擎;
-
部署该引擎
下面以BLOOM-560m模型为例介绍使用TensorRT-LLM部署大模型的步骤:
Step0:在docker容器中安装所需要的环境
pip install -r examples/bloom/requirements.txtgit lfs install
Step1:从Huggingface中下载BLOOM-650m模型
cd examples/bloomrm -rf ./bloom/560Mmkdir -p ./bloom/560M && git clone https://huggingface.co/bigscience/bloom-560m ./bloom/560M

本文介绍了NVIDIA的TensorRT-LLM,一款针对大模型优化的推理加速引擎,基于TensorRT,支持多种GPU并行和量化,简化部署流程,尤其强调了性能提升和资源管理的效率。
:英伟达LLM推理部署工具TensorRT-LLM&spm=1001.2101.3001.5002&articleId=134201481&d=1&t=3&u=7efe39dcc8d54c10bf455a1d5eee7477)
2108

被折叠的 条评论
为什么被折叠?



