首先简单介绍一下vLLM框架。vLLM 是一个快速且易于使用的 LLM 推理和服务库。
vLLM官方文档地址:欢迎来到 vLLM!— vLLM
开始部署模型
首先,打开AutoDL官网:AutoDL算力云 | 弹性、好用、省钱。租GPU就上AutoDL。注册登录后,点击算力市场选择相应算力的服务器进行租用。本文中部署的glm-4-9b_chat采用3090服务器就足够,根据图1的流程进行租用。

图1
接下来按图2和图3指示选择基础镜像(若无具体要求,一般选择最高版本即可),选择好基础镜像后点击右下角的立即创建。

图2

图3
创建完实例后会跳转到图4所示的页面,点击 JupyterLab 进入可视化界面。

图4
接着按图5指示双击 autodl-tmp 进入服务器的数据盘,如图6所示。

&spm=1001.2101.3001.5002&articleId=144411804&d=1&t=3&u=e80956f68d2644f08c59b4ba516d58c0)
6311

被折叠的 条评论
为什么被折叠?



