利用vLLM本地安装和配置大语言模型-猎户星空

最新推荐文章于 2026-06-16 07:56:20 发布

原创

最新推荐文章于 2026-06-16 07:56:20 发布 · 2.8k 阅读

标签

这次本地安装和配置是通过一系列Dockerfile指令，构建了一个兼容OpenAI接口标准的vLLM推理框架镜像。这意味着用户可以轻松地在自己的电脑上设置并启动大语言模型的推理服务。
如果你是第一次使用Docker（一个可以让软件在隔离环境运行的工具），不用担心。你可以去Docker的官方网站，那里有很多教程可以帮助你开始。确保你已经在你的电脑上安装了Docker。
这个Docker镜像是基于Ubuntu22.04操作系统的，构建过程包括了一系列步骤，但这些步骤都已经为你准备好了，你只需要按照指导操作即可。这样做的好处是，你不需要从头开始搭建环境，可以直接进入到使用模型的阶段。这就像是你买了一台预装了所有软件的新电脑，省去了自己安装的麻烦：

安装必要的apt软件包和Python PIP包。
下载并安装vLLM源码包。
启动一个内置的、基于OpenAI接口标准的vLLM推理服务。

本地安装和配置猎户星空

1.1系统要求：

操作系统：建议使用Ubuntu 22.04或更高版本。
内存：至少需要16GB RAM。
处理器：应支持AVX-512指令集的CPU。
存储空间：至少需要30GB的可用空间。
此外，对于图形处理单元（GPU），推荐使用NVIDIA RTX 3060或更高性能的显卡，以便在推理时获得更好的性能。

1.2模型选择：

OrionStarAI开发了一系列大语言模型，主要包括以下几个：

Orion-14B-Base: 这是一个具有140亿参数的多语言基础模型，它在2.5T的多语言语料库上进行了训练，涵盖中文、英文、日语、韩语等多种语言。Orion-14B-Base在20B参数级别的模型中表现出色。
Orion-14B-Chat: 这个模型是在高质量语料库上微调的聊天模型，旨在为大型模型社区的用户提供优秀的交互体验。
Orion-14B-LongChat: 长文本版本的模型，擅长处理极长文本，能够在200k的token长度下表现出色，并支持最多320k的token长度。
Orion-14B-Chat-RAG: 这个模型是在自定义的检索增强生成数据集上微调的聊天模型，它在检索增强生成任务中取得了优异的性能。
Orion-14B-Chat-Plugin: 专为插件和函数调用任务定制的聊天模型，适用于LLM作为插件和函数调用系统的代理相关场景。
Orion-14B-Base-Int4: 这是一个使用4位整数权重的量化基础模型。它显著减小了模型大小（减少了70%），同时提高了推理速度（提升了30%），性能损失不到1%。
Orion-14B-Chat-Int4: 它在Orion-14B-Chat基础上，使用4位整数权重进行量化处理。这种量化技术显著减小了模型的大小，使其比原始模型小70%，同时提高了推理速度，达到了30%的提升，而性能损失非常小，不到1%。

在这书中我们会使用这使得Orion-14B-Chat-Int4作为示例，因为Orion-14B-Chat-Int4是OrionStarAI系列中的一个量化聊天模型，成为资源有限环境中理想的选择，尤其是在需要快速响应的应用场景中。

1.3下载模型：

OrionStarAI的模型可以在两个主要的开源平台找到：国际上的HuggingFace和国内的ModelScope。ModelScope是由阿里巴巴达摩院与CCF开源发展委员会合作创建的，旨在提供一个模型共享和创新的平台。我们将在ModelScope平台上展示这些模型。您可以通过点击链接访问ModelScope网站，并查看我们的演示。
https://modelscope.cn/models/OrionStarAI/Orion-14B-Chat-Int4/files
在这里插入图片描述
我们首先在“模型介绍”旁边点击“模型文件”，然后点击右边“下载模型”的按钮，网页右侧会出现两种下载方式。

我们选择git的下载方式，在根目录下，创建models文件夹，然后下载模型。

mkdir models
cd models
git clone https://www.modelscope.cn/OrionStarAI/Orion-14B-Chat-Int4.git

注意：模型内一些大文件（如下图红线提示）可能在git命令下丢失，需要自己点击下载。

在这里插入图片描述

1.4部署模型：

我们将使用vLLM框架来运行大语言模型。vLLM是一个由伯克利大学开发的开源推理引擎，它采用了一种叫做"PagedAttention"的新技术，可以更高效地使用显存并加快处理速度。OrionStar为此创建了一个特殊的Docker镜像文件，这个文件包含了所有必要的软件和设置。这意味着用户不需要手动搭建软件环境或安装Python包，大大简化了启动服务的过程。简而言之，OrionStar的Docker镜像让启动和运行大语言模型变得既快捷又简单。

1.4.1构建镜像

要开始使用OrionStarAI的vLLM，我们首先需要从他们的GitHub页面下载这个项目。这个项目主要是一个Dockerfile文件，一个用来构建Docker镜像的脚本。构建这个镜像可能会根据你的网络速度和电脑性能而有所不同，通常需要20到60分钟，因为它需要下载一些PIP软件包。在这个过程中，请耐心等待。完成后，我们将得到一个名为vllm_server:0.0.0.0的Docker镜像，它将包含vLLM的所有必要组件。这样，你就可以在本地运行vLLM，开始进行大语言模型推理了。
首先，我们的电脑需要和Docker容器通过一个端口号来通信，我们默认使用9999这个端口。如果你的电脑上9999端口已被占用，你可以修改Dockerfile文件中的–port选项来更换端口，同时也要在运行docker run命令时调整端口映射，以确保通信顺畅。如果在构建过程中遇到任何问题，可以查阅相关文档或在GitHub上提交问题。

git clone https://github.com/OrionStarAI/vllm_server.git

当我们下载

最低0.47元/天解锁文章