OpenClaw + Ollama 本地大模型部署教程：彻底告别Token焦虑

最新推荐文章于 2026-06-23 10:24:23 发布

原创

最新推荐文章于 2026-06-23 10:24:23 发布 · 1.1k 阅读

标签

#人工智能

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

OpenClaw + Ollama 本地大模型部署教程：彻底告别Token焦虑

作为一名后端工程师，我对Token消耗一直有执念——每次看到API调用账单，总觉得钱花得冤枉。OpenClaw确实好用，但频繁调用云端API，免费额度几天就见底。直到我把目光转向本地大模型：Qwen2.5、GLM-4这些模型现在可以在Mac上流畅运行，推理速度完全够用，关键是——Token费用为0。本文将手把手教你如何在Mac上部署OpenClaw + Ollama，用本地大模型彻底取代云端API，实现真正的“免费AI助手”。

一、为什么要本地部署大模型？

1.1 云端API的三大痛点

痛点	说明	本地部署解决方案
Token成本	日常对话、文件处理、联网搜索，每一项都在消耗Token	本地推理，零Token费用，无限次调用
隐私安全	敏感数据（代码、文档、对话记录）上传云端	数据完全本地化，永不离开你的电脑
网络依赖	断网环境无法使用，海外API还有延迟问题	离线可用，随时随地调用

1.2 本地大模型的能力边界

很多人担心本地模型“不够聪明”。实测Qwen2.5 7B/14B在中文理解和指令遵循上，足以覆盖90%的日常任务：

✅ 文件处理：整理文件夹、批量重命名、内容提取
✅ 代码辅助：写函数、Debug、代码解释
✅ 信息查询：配合联网Skill，获取实时信息
✅ 日程管理：处理邮件、安排会议、设置提醒
⚠️ 不适合：超长文本总结（16K+）、复杂数学推理、专业领域深度问答

一句话总结：日常任务用本地模型省钱，偶尔复杂任务切回云端——这才是最优解。

二、核心架构：OpenClaw + Ollama 工作原理

在开始部署前，先理解这两个工具的分工：

Ollama：本地大模型运行器。负责加载模型（如Qwen2.5）、接收请求、返回推理结果。相当于你的“本地AI大脑”。
OpenClaw：AI代理框架。负责接收你的指令、调用工具（浏览器、文件系统）、与Ollama通信。相当于“四肢”和“神经系统”。

数据流：你发指令 → OpenClaw理解任务 → 调用Ollama推理 → Ollama返回结果 → OpenClaw执行动作 → 反馈给你。整个过程不经过任何云端服务器。

2.1 硬件要求（Mac版）

模型规模	量化版本	显存需求	内存需求	推荐Mac机型
Qwen2.5 7B	INT4	4-5GB	8GB	M1/16GB内存
Qwen2.5 7B	INT8	8-10GB	16GB	M2/16GB内存
Qwen2.5 14B	INT4	8-10GB	16GB	M2 Pro/32GB内存
Qwen2.5 14B	INT8	16GB+	32GB	M3 Max/64GB内存

实测数据：M1芯片（16GB内存）跑Qwen2.5 7B INT4，推理速度约15-20 token/秒，日常对话完全够用。

三、Mac本地部署全流程（零基础版）

3.1 第一步：安装Ollama（大模型运行器）

Ollama是目前macOS上体验最好的本地模型管理工具，支持一键下载、运行多种开源模型。

# 1. 使用Homebrew安装Ollama（推荐）
brew install ollama

# 2. 或者官网下载安装包
# 访问 https://ollama.com/download 下载macOS版本
# 双击安装，拖入Applications文件夹即可

# 3. 验证安装
ollama --version  # 应显示 0.5.0 或更高

启动Ollama服务：

# 后台运行Ollama服务
ollama serve

# 新开一个终端窗口，测试服务是否正常
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5",
  "prompt": "你好"
}'

设置开机自启（可选）：

# 将Ollama添加到登录项
# 系统设置 → 通用 → 登录项 → 添加Ollama

3.2 第二步：下载本地模型

推荐Qwen2.5系列，中文理解能力强，推理速度快。

# 1. 查看可用模型列表
ollama list  # 查看已下载模型

# 2. 下载Qwen2.5 7B（INT4量化版，约4GB）
ollama pull qwen2.5:7b-instruct-q4_0

# 3. 或者下载更轻量的3B版本（适合低配Mac）
ollama pull qwen2.5:3b-instruct-q4_0  # 约2GB

# 4. 下载GLM-4（智谱轻量版）
ollama pull glm4:9b-chat-q4_0  # 约5GB

# 5. 验证下载
ollama list
# 应该看到类似输出：
# NAME                            ID              SIZE    MODIFIED
# qwen2.5:7b-instruct-q4_0        xxx             4.1 GB  2 minutes ago