一、Ollama
Ollama 是一个旨在帮助用户轻松在本地运行、部署和管理模型的开源项目。它仅通过一个简单的命令行界面(CLI)就可让用户下载、运行和与各种开源大语言模型进行交互。
Ollama 的主要特点:
(1) 本地运行:可以在个人电脑或服务器上运行大模型,无需依赖云服务。
(2) 模型管理:支持一键下载、更新和切换不同模型。
(3) 跨平台支持:支持 macOS、Linux 和 Windows(通过 WSL)。
(4) API 兼容性:提供类似 OpenAI 的 API,方便开发者集成到自己的应用中。
(5) 轻量化:优化了模型加载和推理效率,适合本地开发和研究。
适用场景:
(1) 本地开发测试:快速验证 LLM 应用逻辑。
(2) 隐私敏感任务:数据无需上传到云端。
(3) 离线环境使用:在没有网络的情况下运行模型。
Ollama 支持的模型列表:library
1. Ollama 的安装
macOS/Linux :
curl -fsSL https://ollama.com/install.sh | sh
Windows (需WSL):
在 WSL(Ubuntu)中运行上述命令
Windows 安装 WSL 的教程:Windows安装WSL教程-CSDN博客
2. 模型下载和运行
# 下载
ollama pull llama2
# 运行
ollama run llama2
Ollama 默认提供 REST API(http://localhost:11434),也可像 OpenAI API 一样调用:
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "为什么天空是蓝色的?"
}'
二、vLLM
vLLM 是一个高效的大语言模型(LLM)推理和服务库,特别适合高吞吐量和低延迟的场景。
它支持多种API,此处仅展示常用的Chat API、Embeddings API 和 Rerank API。
vLLM 官方文档:Welcome to vLLM — vLLM
1. vLLM 的安装
# 创建虚拟环境
conda creat


4222

被折叠的 条评论
为什么被折叠?



