Ollama、vLLM和Xinference三个框架的介绍和基本使用

原创

已于 2025-04-28 15:24:36 修改 · 2.3k 阅读

标签

#ollama #vLLM #Xinference #AI #模型部署

收录于

于 2025-04-28 15:18:20 首次发布

一、Ollama

Ollama 是一个旨在帮助用户轻松在本地运行、部署和管理模型的开源项目。它仅通过一个简单的命令行界面（CLI）就可让用户下载、运行和与各种开源大语言模型进行交互。

Ollama 的主要特点：
(1) 本地运行：可以在个人电脑或服务器上运行大模型，无需依赖云服务。
(2) 模型管理：支持一键下载、更新和切换不同模型。
(3) 跨平台支持：支持 macOS、Linux 和 Windows（通过 WSL）。
(4) API 兼容性：提供类似 OpenAI 的 API，方便开发者集成到自己的应用中。
(5) 轻量化：优化了模型加载和推理效率，适合本地开发和研究。

适用场景：
(1) 本地开发测试：快速验证 LLM 应用逻辑。
(2) 隐私敏感任务：数据无需上传到云端。
(3) 离线环境使用：在没有网络的情况下运行模型。

Ollama 支持的模型列表：library

1. Ollama 的安装
macOS/Linux ：

curl -fsSL https://ollama.com/install.sh | sh

Windows (需WSL)：

在 WSL（Ubuntu）中运行上述命令

Windows 安装 WSL 的教程：Windows安装WSL教程-CSDN博客

2. 模型下载和运行

# 下载
ollama pull llama2

# 运行
ollama run llama2

Ollama 默认提供 REST API（http://localhost:11434），也可像 OpenAI API 一样调用：

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "为什么天空是蓝色的？"
}'

二、vLLM

vLLM 是一个高效的大语言模型（LLM）推理和服务库，特别适合高吞吐量和低延迟的场景。
它支持多种API，此处仅展示常用的Chat API、Embeddings API 和 Rerank API。

vLLM 官方文档：Welcome to vLLM — vLLM

1. vLLM 的安装

# 创建虚拟环境
conda creat

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

catchtimea

关注关注

8
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Ollama vs Xinference: AI推理引擎对比报告

maxcode

02-05

4222

Ollama 和 Xinference 都是强大的AI推理引擎，旨在提升机器学习和深度学习模型的推理性能，但它们的应用场景、性能优化、以及支持的技术栈各自有所不同。本报告将详细比较这两者的架构、性能、应用场景、易用性、社区支持等方面，帮助开发者和企业根据自身需求选择合适的推理引擎。Ollama 适合开发者和小团队，特别是希望在本地进行推理的小型项目。其简洁易用的API和本地化推理能力，非常适合需要离线运行或本地资源有限的场景。

参与评论您还未登录，请先登录后发表或查看评论

xinference搭建

liuzhenghua66的博客

04-09

6781

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。帮助文档：https://inference.readthedocs.io/zh-cn/latest/models/index.html 运维部署内置模型以及调用示例：https://inference.readthedocs.io/zh-cn/latest

AI模型部署工具Xinference供应链投毒详细介绍

热门推荐

qq_46094651的博客

08-13

2万+

除了使用LLM模型的Web界面进行操作外，Xinference还提供了API接口，通过调用API接口来使用LLM模型。在API文档中，存在大量API接口，不仅有LLM模型的接口，还有其他模型(如Embedding)的接口，并且这些接口都是兼容OpenAI API的接口。通过访问来查看API文档。Xinference提供了管理模型整个生命周期的能力。

部署快捷、使用简单、推理高效！大模型部署和推理框架 Xinference 来了！

2201_75499313的博客

03-14

1万+

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架。可用于各种模型的推理。通过 Xinference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xinference 与最前沿的 AI 模型，发掘更多可能。

「LLM企业实战03」三大引擎对决：Ollama、Xinference与VLLM服务框架实测

bigchen

05-18

5123

文章探讨了在硬件就位后，如何通过选择合适的LLM服务框架来高效运行模型。重点对比了Ollama、Xinference和VLLM三个框架的特点、适用场景及运维注意事项。Ollama以其简单易用和快速上手的特点，适合本地开发和低并发场景；Xinference则以其灵活性和对多GPU资源的优化利用，适合企业级应用，尤其是需要动态量化和多模型支持的场景；VLLM则在高吞吐和长上下文处理能力上表现优异，适合性能要求较高的应用。文章强调，选择框架时应根据具体需求和实际限制进行权衡，不存在“最好”的框架，只有“最适合”的

大模型推理部署框架怎么选？：vLLM、SGLang、TensorRT-LLM、ollama、XInference框架对比

CSDN_224022的博客

09-04

1294

大模型推理部署框架怎么选？：vLLM、SGLang、TensorRT-LLM、ollama、XInference框架对比

一文梳理主流大模型推理部署框架：vLLM、SGLang、TensorRT-LLM、ollama、XInference

2401_85280106的博客

07-31

1558

的选择应基于。

【大模型】Xinference的安装和部署

magic_ll的博客

12-29

1万+

Xinference通过提供简单API和强大的功能，使得私有化模型的大规模部署成为可能，无论是在个人电脑还是分布式集群中，都能够发挥异构硬件的全部潜力，达到最极致的吞吐量与最低的推理延迟。：Xinference简化了包括大语言模型、多模态模型、语音识别模型等模型部署的过程，允许用户轻松一键部署自己的模型或内置的前沿开源模型。：Xinference专注于优化模型的推理性能，并支持多种类型的模型，包括深度学习模型。如下图，待参数设置OK后，点击小火箭，则下载模型和加载模型，模型下载到默认路径。

推理框架 Xinference和大模型部署（ChatGLM为例）

weixin_52514174的博客

07-04

1万+

Xinference+Dify本地部署全攻略：知识库搭建与模型配置详解(附一键安装包)

apo0625的博客

03-09

8323

不需要再去下载docker镜像，只需要点击Xinference.exe 即可启动xinference服务且已经包含离线embedding+rerank模型，无需担心网络问题下载失败

【语言模型】Xinference的部署过程

kewaqi618的博客

06-28

9610

根据自己的需求构建自定义的Xinference Docker镜像，包括安装特定的依赖项、配置环境变量等。这有助于你更灵活地部署和管理Xinference服务。扩展API接口：如果你需要实现自定义的API接口或扩展现有接口的功能，你可以使用Xinference提供的Python SDK或RESTful API接口进行开发。这允许你根据自己的业务需求定制服务的功能和性能。

Xinference：深度学习模型推理与优化指南

AngelCryToo的专栏

09-24

3660

Xinference 是一个专注于高效深度学习模型推理的开源工具，旨在提升推理速度和性能。它支持多种硬件后端，包括 CPU、GPU 和 FPGA，适用于不同的部署环境。Xinference 是一个强大的工具，专注于深度学习模型的推理。它与 LLaMA-Factory 在功能和应用场景上有明显区别，开发者可以根据需求选择合适的工具。希望这些信息对你有所帮助！如有其他问题，请随时询问。

xinference - 大模型分布式推理框架

AI工程化、开源分享、文档翻译、代码笔记

03-19

5663

Xinference 也允许从其他模型托管平台下载模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。如果你的第1个cuda 被占用，又设置 N-GPU 为 auto，可能会报如下错误。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。模型缓存地址，我使用 modelscope 下载模型，被缓存到。

【拥抱AI】Xinference 详细介绍

保持前进，即便速度慢，也不能停下脚步...

11-21

3858

Xinference（Xorbits Inference）是一个高性能的分布式推理框架，它能够支持大规模语言模型（Large Language Models, LLMs）、语音识别模型、多模态模型等各种人工智能模型的推理。Xinference 提供了易于使用的接口，包括Web图形用户界面（WebGUI）和RESTful API，以及命令行工具，使得用户可以轻松部署和管理模型.Xinference 是一个强大的开源语言模型框架，集成了多个大规模预训练模型，支持多种自然语言处理任务。

自然语言处理: 第十四章Xinference部署

victor_manches的博客

02-27

4398

项目地址: Xorbitsai/inference正如同Xorbits Inference（Xinference）官网介绍是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。介绍这个项目主要是为了后面在dify能够快速部署接入AP

Xinference安装、使用详细笔记

guoqingru0311的博客

03-24

4002

Xinference安装、使用详细笔记

辅导员如何用好AI大模型提高写作效率？

zhishi0000的博客

04-29

1769

用好了，我们会事半功倍，很大程度提高工作效率。如果过度依赖、沉溺于此，会让你的材料缺乏创新性、独特性和深刻性。AI大模型是基于大量数据进行学习的，其生成的文本往往缺乏独特的见解、深刻的认知，可能会导致所写内容雷同度高、缺乏独立思考。此外，针对使用AI大模型撰写学术论文的监管机制也会越来越完善，在涉及学术研究领域，大家一定要坚持原创性和自主性，不要因为一时的便捷而误入歧途。