如何在Ubuntu上用2080ti双卡高效运行DeepSeek-R1模型（附vllm+openweb-ui配置全流程）

最新推荐文章于 2026-05-03 09:44:40 发布

原创

最新推荐文章于 2026-05-03 09:44:40 发布 · 461 阅读

标签

#2080ti #Ubuntu #vllm #openweb-ui

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

在Ubuntu系统上利用双路2080Ti高效部署DeepSeek-R1：从硬件压榨到交互界面实战

手里有两张老当益壮的2080Ti，想在Ubuntu上跑起来最新的DeepSeek-R1模型，这个想法听起来有点挑战，但实际操作下来，你会发现这套组合的潜力远超预期。2080Ti虽然不支持最新的BF16精度，但通过合理的配置和优化，完全能够流畅运行经过蒸馏的7B参数版本，为个人研究、小规模实验甚至是某些特定场景下的生产应用提供可靠的推理能力。这篇文章就是为那些已经熟悉Linux环境、对AI模型部署有基本了解，但希望将手头硬件性能发挥到极致的中高级开发者准备的。我们不只讲步骤，更会深入每个配置选项背后的考量，分享我在调试过程中踩过的坑和找到的优化技巧，目标是让你搭建的系统不仅“能跑”，更要“跑得顺畅、用得顺手”。

1. 环境评估与准备工作：为双卡部署奠定基石

在开始安装任何软件之前，花点时间彻底评估和准备你的系统环境是避免后续无数麻烦的关键。Ubuntu系统本身对NVIDIA显卡的支持已经相当成熟，但面对双卡和特定模型的需求，我们需要确保每一个环节都精准到位。

首先确认你的硬件配置。两张2080Ti，每张拥有11GB的GDDR6显存，在Tensor Parallel（张量并行）的模式下，理论上可以为模型提供总计22GB的可用显存池。这对于DeepSeek-R1-Distill-Qwen-7B这类模型来说是足够的，但你需要清楚，显存不仅要装载模型参数，还要容纳推理过程中的KV Cache（键值缓存），尤其是当处理长上下文时。运行以下命令可以快速检查显卡状态和驱动信息：

nvidia-smi

你应该能看到两张显卡都被正确识别，驱动版本建议在525以上，以获得对现代AI框架更好的兼容性。如果其中一张卡状态异常或未被识别，可能需要检查PCIe插槽、电源供电或重新安装驱动。

接下来是Ubuntu系统层面的准备。虽然许多教程会推荐使用最新的Ubuntu版本，但根据我的经验，Ubuntu 22.04 LTS在稳定性和软件包兼容性上是一个更稳妥的选择。确保你的系统已更新：

sudo apt update && sudo apt upgrade -y

然后安装一些基础的编译工具和依赖库，这些是后续构建Python包（尤其是vllm）所必需的：

sudo apt install -y build-essential cmake python3-pip python3-venv git curl wget

关于Python环境的管理，我强烈建议不要直接使用系统的Python。无论是conda还是venv，创建一个独立的虚拟环境都是最佳实践。这里我选择使用conda，因为它能更好地处理非Python的二进制依赖（比如某些CUDA相关的库）。如果你还没有安装Miniconda，可以从官网下载安装脚本：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
bash Miniconda3-latest-Linux-x86_64.sh

安装完成后，创建一个专用于本项目的环境，并指定Python版本。Python 3.10是一个兼容性极佳的选择，它被vllm和大多数AI库良好支持。

conda create -n deepseek-r1-env python=3.10 -y
conda activate deepseek-r1-env

提示：将环境激活命令（conda activate deepseek-r1-env）添加到你的~/.bashrc文件中，可以避免每次新开终端都要手动激活

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

最低0.47元/天解锁文章