OpenClaw+千问Qwen3.5:9b AI工作流部署实战指南-CSDN博客

1. 项目概述：这不是一个“装完就跑”的玩具，而是一套可落地的AI工作流中枢

OpenClaw 这个名字最近在开发者圈子里出现频率明显变高，但很多人点开 GitHub 仓库后第一反应是：“这到底是个啥？文档里全是英文，示例跑不起来，Skills 列表像天书。”我去年底开始系统性地把 OpenClaw 拉进我们团队的日常开发流程，从阿里云 ECS 上搭起第一个稳定节点，到本地 MacBook M2 跑通全链路 Coding Plan，再到把千问 Qwen3.5:9b 作为默认推理后端嵌入所有 Skill 执行环节——整个过程踩过的坑、调过的参数、改过的配置文件，比写业务代码还多。它不是另一个大模型前端界面，而是一个 可编程的 AI Agent 工作流调度器 ：你定义“做什么”（Skill），它自动决定“谁来做”（LLM）、“怎么做”（Tool Calling）、“做多少次”（Plan Loop），最后把结果串成可复用、可调试、可监控的执行单元。标题里写的“9个必装Skill”，不是随便凑数的插件列表，而是经过我们实测验证、覆盖真实开发闭环的最小可行集合——比如 git-diff-analyzer 能自动读取未提交的代码变更并生成 PR 描述草稿； sql-explainer 输入一条慢查询，直接输出执行计划解读+索引优化建议； api-spec-validator 把 Swagger YAML 文件丢进去，秒级返回 OpenAPI 3.1 兼容性报告和字段缺失预警。这些 Skill 的底层，全部依赖你本地或云端部署的千问模型提供语义理解与逻辑生成能力。所以部署 OpenClaw 的本质，不是装一个软件，而是构建一套属于你自己的、带记忆、懂上下文、会调工具的 AI 开发副驾系统。

2. 整体设计思路与方案选型逻辑

2.1 为什么必须区分“阿里云部署”和“本地部署”两种路径？

很多人看到“阿里云/本地”就以为只是换台机器的事，其实这是两个完全不同的技术目标和运维边界。我在实际落地中发现， 阿里云部署的核心诉求是“稳定对外服务”，本地部署的核心诉求是“快速迭代调试” 。前者要扛住 CI/CD 流水线高频调用、支持多租户隔离、具备日志审计能力；后者则要求启动秒级响应、支持热重载 Skill 代码、能直接 attach debugger 断点调试。如果强行用同一套配置在本地跑生产环境那套东西，你会遇到三类典型问题：一是 Docker Compose 启动时疯狂拉取镜像，本地网络卡死；二是 Nacos 配置中心在单机模式下频繁报心跳超时，导致 Skill 注册失败；三是本地 GPU 显存不足却硬要加载 Qwen3.5:9b 的 full precision 权重，直接 OOM。所以我们最终拆成了两套独立部署栈：

阿里云路径 ：ECS 实例（推荐 ecs.g7ne.2xlarge，16C32G + 1×A10）→ Docker Engine 24.0.7（非社区版自带，必须手动安装）→ Ollama 0.3.5（专为阿里云镜像源优化过 pull 逻辑）→ OpenClaw v0.8.3（官方 release binary，非源码编译）→ Nacos 2.3.2 standalone 模式（配置持久化到云盘）
本地路径 ：macOS Sonoma / Windows WSL2 Ubuntu 22.04 → Ollama 0.3.4（避免 0.3.5 在 Apple Silicon 上的 CUDA 兼容 bug）→ OpenClaw dev branch（git clone 后 make build ）→ Qwen3.5:9b 以 qwen3.5:9b-f16 标签加载（显式指定量化精度，规避默认 q4_k_m 的 token 生成抖动）

这个拆分不是为了炫技，而是基于一个铁律： 任何脱离运行边界的部署方案，都是纸面架构 。阿里云上你得考虑镜像拉取失败后的 fallback 机制，本地你得解决 VS Code Remote-WSL 下 Python 调试器无法 attach 到 OpenClaw 进程的问题。后面所有步骤，都建立在这个双轨制认知基础上。

2.2 “9个必装Skill”背后的筛选逻辑：拒绝功能堆砌，只留闭环刚需

网上流传的 Skill 列表动辄三四十个，但真正能融入日常开发流、每天被调用超过 5 次的，我们筛下来就这 9 个。它们不是按“酷炫程度”排序，而是严格遵循“输入明确、输出可验证、失败可归因”三原则。比如 file-searcher 这个 Skill，表面看就是个 grep 增强版，但它解决了我们最痛的一个场景：新同事接手老项目时，在百万行代码库中定位某个废弃的加密算法实现。传统做法是全局搜函数名，结果返回 200+ 个无关结果；而 file-searcher 接收自然语言指令（如“找出所有使用 DES 加密且未被单元测试覆盖的 Java 类”），自动拆解为 AST 解析 + 正则匹配 + 测试覆盖率 API 调用三步，最终只返回 3 个精准文件路径。它的价值不在“能搜”，而在“搜得准、有依据、可追溯”。再比如 pr-merger ，它不单纯执行 git merge，而是先调用 git-diff-analyzer 生成变更摘要，再让千问模型评估合并风险（如是否修改了核心支付逻辑、是否有未处理的 TODO 注释），最后才触发 merge —— 这个决策链路本身就是可审计的。所有 9 个 Skill 的源码我们都做了深度定制：移除了原版中依赖外部 SaaS 服务的模块（如 Slack webhook），替换成企业微信机器人回调；把硬编码的 API Key 替换为统一的 Vault 密钥注入机制；为每个 Skill 添加了 --dry-run 模式，执行前先输出完整执行计划（含将调用的 LLM、Tool、预期耗时）。这才是“必装”的真实含义：不是功能清单，而是生产就绪的最小能力集。

2.3 千问模型接入为何必须锁定 Qwen3.5:9b？性能、生态与成本的三角平衡

标题里强调“千问 Coding Plan 配置指南”，不是因为通义实验室推广，而是实测数据说话。我们对比过 Qwen2.5:7b、Qwen3.5:9b、DeepSeek-Coder-V2:14b、Claude-3-Haiku 在 OpenClaw 场景下的表现：

指标	Qwen2.5:7b	Qwen3.5:9b	DeepSeek-Coder-V2:14b	Claude-3-Haiku
平均 token 生成延迟（ms/token）	128	89	215	342
Git diff 理解准确率（100 条样本）	76%	92%	85%	88%
SQL 解释任务完成率（无 hallucination）	63%	89%	71%	77%
16GB 显存下最大 batch_size	4	6	2	不支持本地部署
Ollama 拉取耗时（阿里云镜像源）	3m12s	1m48s	5m27s	无法拉取

关键结论很清晰：Qwen3.5:9b 在延迟、准确率、资源占用三个维度达成最优交点。尤其要注意“SQL 解释任务完成率”这一项——我们用的是自建测试集，包含 37 种 MySQL 8.0 特有语法（如 CTE + WINDOW FUNCTION 嵌套），Qwen2.5 经常把 ROW_NUMBER() OVER (PARTITION BY x ORDER BY y) 错解为普通排序，而 Qwen3.5 的 AST 解析层明显强化了对窗口函数的理解深度。另外，Ollama 官方镜像源对 Qwen3.5:9b 做了专项优化：镜像分层更细， ollama pull qwen3.5:9b 时只下载增量层，比全量拉取快 2.3 倍。这不是玄学，是阿里云工程师和通义实验室联合调优的结果。所以配置指南里所有关于模型参数的部分，都围绕 Qwen3.5:9b 展开，比如 temperature 必须设为 0.3（太高易发散，太低缺创造性），top_p 设为 0.9（保留合理多样性），max_tokens 严格限制在 2048（防止长文本截断导致 Skill 执行中断）。

3. 核心细节解析与实操要点

3.1 阿里云 ECS 环境初始化：绕过“社区版自带 Docker”这个致命误区

搜索热词里反复出现“阿里云服务器docker 社区版是自带docker环境吗”，这个问题背后藏着一个巨大陷阱。阿里云官方镜像（如 Alibaba Cloud Linux 3）确实预装了 docker-ce-cli ，但 它不等于完整的 Docker Engine 运行时 。我们第一次部署时就栽在这儿： docker --version 显示 24.0.5， docker run hello-world 却报错 Cannot connect to the Docker daemon at unix:///var/run/docker.sock. Is the docker daemon running? 。查日志发现 /usr/bin/dockerd 进程根本没启动，systemctl list-unit-files 里也找不到 docker.service。原因在于阿里云为了精简镜像，默认禁用了 dockerd 服务，只留了个 CLI 工具壳。正确做法是三步走：

卸载残留 CLI ： sudo yum remove docker-ce-cli -y （避免版本冲突）

添加阿里云 Docker 镜像源 ：

sudo tee /etc/yum.repos.d/docker-ce.repo <<-'EOF'
[docker-ce-stable]
name=Docker CE Stable - $basearch
baseurl=https://mirrors.aliyun.com/docker-ce/linux/centos/3/$basearch/stable
enabled=1
gpgcheck=1
gpgkey=https://mirrors.aliyun.com/docker-ce/linux/centos/gpg
EOF

安装完整引擎并启用服务 ：
sudo yum install docker-ce docker-ce-cli containerd.io -y && sudo systemctl enable docker && sudo systemctl start docker

提示：务必在 yum install 后执行 sudo usermod -aG docker $USER ，然后 newgrp docker 刷新组权限，否则后续 OpenClaw 启动时会因权限不足无法创建容器网络。

这个步骤看似简单，却是阿里云部署成功率从 40% 提升到 98% 的关键。很多教程跳过这一步，直接写 docker-compose up ，结果新手卡在第一步就放弃。我们后来把这段脚本封装成 aliyun-init.sh ，每次新购 ECS 后一键执行，省去所有排查时间。

3.2 OpenClaw Skill 的“可调试性”改造：让 AI 行为不再黑盒

原版 OpenClaw 的 Skill 执行是原子化的：输入 prompt，输出 response，中间过程完全不可见。这在 PoC 阶段没问题，但一旦进入生产环境，你必须回答三个问题：这次执行为什么慢？为什么返回了错误结果？哪个环节出了问题？我们的解决方案是在每个 Skill 入口强制注入 --debug 参数，并配套三重可观测能力：

结构化日志 ：所有 Skill 的 stdout/stderr 必须 JSON 格式化，包含 skill_name 、 input_hash （输入内容 SHA256）、 llm_call_id （Ollama 请求唯一 ID）、 tool_calls （调用的 Tool 列表）、 execution_time_ms 字段。我们用 jq 做实时解析，配合阿里云 SLS 日志服务做聚合分析。
执行快照 ：每次 Skill 运行前，自动保存当前工作目录的 git status 输出、 pip list --outdated 结果、 nvidia-smi 显存快照到 /tmp/openclaw-snapshots/ ，命名规则为 skillname-timestamp-hash.json 。当某次执行异常时，直接 cat /tmp/openclaw-snapshots/git-diff-analyzer-20240521-abc123.json 就能看到当时的代码状态。
LLM 请求回放 ：所有发给 Ollama 的请求，通过 curl -v 记录完整 HTTP 头和 body 到 /var/log/openclaw/ollama-requests/ ，并生成可复现的 replay.sh 脚本。比如某次 sql-explainer 返回了错误的索引建议，执行 bash /var/log/openclaw/ollama-requests/replay-20240521-xyz.sh 就能在本地复现完全相同的请求，方便对比不同模型版本的输出差异。

这些改造不需要动 OpenClaw 核心代码，全部通过 skill.yaml 中的 pre_hook 和 post_hook 配置实现。比如 git-diff-analyzer 的 hook 配置如下：

hooks:
  pre_hook: |
    echo "{\"skill_name\":\"git-diff-analyzer\",\"input_hash\":\"$(sha256sum /tmp/diff.patch | cut -d' ' -f1)\",\"timestamp\":\"$(date -u +%Y-%m-%dT%H:%M:%SZ)\"}" > /tmp/openclaw-snapshots/pre-$(date +%s).json
  post_hook: |
    echo "{\"execution_time_ms\":\"$(($(date +%s%N) - $(stat -c '%W' /tmp/openclaw-snapshots/pre-*.json | head -1)*1000000000))\"}" >> /tmp/openclaw-snapshots/pre-*.json

这种设计让 Skill 从“黑盒函数”变成“白盒服务”，是保障线上稳定性的基石。

3.3 千问模型的精细化配置：不只是 `ollama run qwen3.5:9b`

热词里大量出现“阿里云服务器上ollama安装qwen3.5:9b”，但很多人不知道， ollama run 只是交互式体验，生产环境必须用 ollama serve 启动守护进程，并配合 OpenClaw 的 model_config.yaml 做深度绑定。我们踩过最深的坑是：默认配置下 Qwen3.5:9b 的 context window 是 32768，但 OpenClaw 的 Skill 执行链路中，一次 Plan 可能叠加 5~6 层 prompt（system prompt + skill description + tool schema + input + history），很容易突破上限。解决方案是四层配置：

Ollama 服务级配置 （ ~/.ollama/config.json ）：
```
{
  "host": "0.0.0.0:11434",
  "keep_alive": "5m",
  "num_ctx": 16384,
  "num_gpu": 1,
  "num_thread": 8
}
```
关键是 num_ctx 从默认 32768 降到 16384，牺牲部分长文本能力，换取内存稳定性（A10 显存从 24GB 峰值降到 18GB 稳态）。

OpenClaw 模型路由配置 （ config/model_config.yaml ）：

models:
  - name: "qwen3.5-coding"
    endpoint: "http://localhost:11434/api/chat"
    model: "qwen3.5:9b-f16"
    parameters:
      temperature: 0.3
      top_p: 0.9
      max_tokens: 2048
      repeat_penalty: 1.1
    timeout: 120000

Skill 级别 context 控制 ：在每个 Skill 的 prompt.jinja 模板里，用 {% if history %}{{ history[-3:] | join('\n\n') }}{% endif %} 限制只传最近 3 轮对话历史，避免无限累积。
动态 context 缩减 ：编写 context-trimmer.py 脚本，在 Skill 执行前自动检测输入长度，若超过 num_ctx * 0.7 ，则用 LLM 自身压缩历史（prompt：“请用 200 字以内总结以下对话历史：{{ history }}”），再喂给主模型。

这套组合拳让 Qwen3.5:9b 在阿里云 A10 上的平均 P95 延迟稳定在 1.8s 内，错误率低于 0.3%。没有哪一项是孤立有效的，必须四层联动。

4. 实操过程与核心环节实现

4.1 阿里云部署全流程：从 ECS 创建到 Skill 全量上线

我们以一台全新购买的 ecs.g7ne.2xlarge 实例为例，完整记录从零到一的部署过程。所有命令均在 root 用户下执行，路径为 /root/openclaw-deploy/ 。

Step 1：基础环境初始化（耗时约 3 分钟）

# 创建工作目录
mkdir -p /root/openclaw-deploy && cd /root/openclaw-deploy

# 执行阿里云 Docker 初始化脚本（见 3.1 节）
curl -fsSL https://raw.githubusercontent.com/your-org/openclaw-tools/main/aliyun-init.sh | bash

# 安装必要工具
yum install -y git jq curl wget vim-enhanced

# 配置阿里云 pip 源（加速 Python 包安装）
mkdir -p ~/.pip && cat > ~/.pip/pip.conf <<-'EOF'
[global]
index-url = https://mirrors.aliyun.com/pypi/simple/
trusted-host = mirrors.aliyun.com
EOF

Step 2：Ollama 与 Qwen3.5:9b 部署（耗时约 8 分钟）

# 下载并安装 Ollama（阿里云镜像加速版）
wget https://github.com/ollama/ollama/releases/download/v0.3.5/ollama-linux-amd64 -O /usr/local/bin/ollama
chmod +x /usr/local/bin/ollama

# 启动 Ollama 服务（后台运行）
nohup ollama serve > /var/log/ollama.log 2>&1 &

# 拉取 Qwen3.5:9b（使用阿里云镜像源，比官方源快 3.2 倍）
OLLAMA_HOST=0.0.0.0:11434 ollama pull qwen3.5:9b-f16

# 验证模型加载
OLLAMA_HOST=0.0.0.0:11434 ollama list | grep qwen3.5
# 应输出：qwen3.5:9b-f16    f16    5.2GB    2024-05-20 10:23

Step 3：OpenClaw 主程序部署（耗时约 2 分钟）

# 下载官方 release binary（v0.8.3）
wget https://github.com/sozocat/openclaw/releases/download/v0.8.3/openclaw-linux-amd64 -O /usr/local/bin/openclaw
chmod +x /usr/local/bin/openclaw

# 创建配置目录
mkdir -p /etc/openclaw/{config,skills,logs}

# 下载默认配置模板
curl -fsSL https://raw.githubusercontent.com/your-org/openclaw-configs/main/config.yaml -o /etc/openclaw/config.yaml

# 修改配置指向本地 Ollama
sed -i 's|http://localhost:11434|http://127.0.0.1:11434|g' /etc/openclaw/config.yaml

Step 4：9 个必装 Skill 部署（耗时约 5 分钟）
我们把所有 Skill 打包成一个 Git 仓库 openclaw-skills-prod ，包含标准化的 install.sh ：

# 克隆 Skill 仓库
git clone https://github.com/your-org/openclaw-skills-prod.git /tmp/skills-tmp
cd /tmp/skills-tmp

# 批量安装（自动处理依赖、权限、日志目录）
./install.sh --target /etc/openclaw/skills --model qwen3.5-coding

# 验证安装
ls -l /etc/openclaw/skills/ | wc -l
# 应输出：9（对应 9 个 Skill 目录）

Step 5：启动与健康检查（耗时约 1 分钟）

# 启动 OpenClaw（后台服务）
nohup openclaw server \
  --config /etc/openclaw/config.yaml \
  --skills-dir /etc/openclaw/skills \
  --log-dir /etc/openclaw/logs \
  > /var/log/openclaw.log 2>&1 &

# 等待 30 秒，检查进程
sleep 30
ps aux | grep openclaw | grep -v grep

# 调用健康检查 API
curl -s http://localhost:8080/health | jq .
# 应输出：{"status":"ok","skills_count":9,"models":["qwen3.5-coding"]}

# 测试首个 Skill（同步调用，不走异步队列）
curl -X POST http://localhost:8080/skill/git-diff-analyzer \
  -H "Content-Type: application/json" \
  -d '{"input":"diff --git a/src/main.java b/src/main.java"}' | jq .
# 应返回结构化 JSON，含 "summary"、"files_affected" 等字段

整个流程严格控制在 20 分钟内，所有命令均可复制粘贴执行。我们把每一步的耗时、预期输出、失败特征都写进了内部 Wiki，新同学照着操作，首次部署成功率 100%。

4.2 本地部署（MacBook M2）：解决 Apple Silicon 的 CUDA 兼容性难题

本地部署最大的痛点是：M2 芯片没有 NVIDIA GPU，Ollama 默认用 Metal 后端，但 Qwen3.5:9b 的 Metal 实现存在 token 生成抖动（同一 prompt 多次运行，输出长度偏差达 ±15 tokens）。我们的解决方案是 强制降级到 CPU 模式，但通过量化精度和线程数优化弥补性能损失 。

Step 1：Ollama 降级安装（关键！）

# 卸载当前版本（避免 0.3.5 的 Metal bug）
brew uninstall ollama

# 安装 0.3.4（已知稳定版本）
brew install https://raw.githubusercontent.com/Homebrew/homebrew-core/f9e5a0d3a7c5b5a5e5c5a5e5c5a5e5c5a5e5c5a5/Formula/o/ollama.rb

# 启动服务（指定 CPU 模式）
OLLAMA_NUM_GPU=0 ollama serve > /tmp/ollama.log 2>&1 &

Step 2：Qwen3.5:9b 的 CPU 专用量化

# 拉取 f16 量化版本（比默认 q4_k_m 更稳定）
ollama pull qwen3.5:9b-f16

# 创建 CPU 专用模型标签（避免与其他环境混淆）
ollama create qwen3.5-cpu -f - <<'EOF'
FROM qwen3.5:9b-f16
PARAMETER num_gpu 0
PARAMETER num_thread 8
PARAMETER num_ctx 16384
EOF

# 验证 CPU 模式加载
ollama run qwen3.5-cpu "Hello" | head -5
# 应快速返回，无延迟卡顿

Step 3：OpenClaw 本地开发环境搭建

# 克隆 dev 分支
git clone https://github.com/sozocat/openclaw.git --branch dev
cd openclaw

# 构建二进制（自动识别 M2 架构）
make build

# 复制到 PATH
sudo cp ./bin/openclaw /usr/local/bin/

# 创建本地配置
mkdir -p ~/.config/openclaw/{config,skills,logs}
cp config.example.yaml ~/.config/openclaw/config.yaml

# 修改配置指向本地模型
sed -i '' 's|qwen3.5:9b|qwen3.5-cpu|g' ~/.config/openclaw/config.yaml

Step 4：VS Code 调试配置（终极生产力提升）
在 .vscode/launch.json 中添加：

{
  "version": "0.2.0",
  "configurations": [
    {
      "name": "OpenClaw Debug",
      "type": "go",
      "request": "launch",
      "mode": "exec",
      "program": "${workspaceFolder}/bin/openclaw",
      "args": [
        "server",
        "--config", "${workspaceFolder}/config.yaml",
        "--skills-dir", "${workspaceFolder}/skills",
        "--log-dir", "${workspaceFolder}/logs"
      ],
      "env": {
        "OLLAMA_HOST": "http://127.0.0.1:11434"
      },
      "port": 2345,
      "showGlobalVariables": true
    }
  ]
}

设置断点后按 F5，即可在 skill_executor.go 中 step into 每个 Skill 的执行逻辑，这才是本地部署的核心价值—— 所见即所得的调试体验 。

5. 常见问题与排查技巧实录

5.1 “OpenClaw 为什么会延迟？”——延迟根因分类与速查表

搜索热词中高频出现“openclaw 为什么会延迟”，这不是单一问题，而是五类根因的混合体。我们整理了生产环境 137 次延迟告警的归因分析，形成这张速查表：

延迟现象	典型表现	根因分类	快速验证命令	解决方案
首请求延迟高	第一次调用 Skill 耗时 >10s，后续正常	Ollama 模型冷加载	`ollama list` 查看 `last_used` 时间	预热脚本： `for i in {1..3}; do ollama run qwen3.5-cpu "ping"; done`
随机性长延迟	P95 延迟突增至 8s，无规律	Ollama 服务 GC 停顿	`curl http://localhost:11434/health` 查看 `uptime` 是否重置	调整 `keep_alive` ： `echo '{"keep_alive":"10m"}' > ~/.ollama/config.json`
Skill 链路延迟	`git-diff-analyzer` 调用 `sql-explainer` 时整体超时	OpenClaw 内部 HTTP 超时设置过短	`grep -r "timeout" /etc/openclaw/config.yaml`	在 `skill.yaml` 中显式设置 `timeout: 30000`
GPU 显存溢出延迟	`nvidia-smi` 显示 GPU-Util 100%，Memory-Usage 98%	Qwen3.5:9b 未启用量化	`ollama show qwen3.5:9b-f16 --modelfile`	重拉 `qwen3.5:9b-q4_k_m` 标签，或降低 `num_ctx`
网络 DNS 延迟	`curl http://localhost:11434` 响应慢，但 `curl http://127.0.0.1:11434` 正常	ECS 实例 DNS 配置异常	`nslookup localhost` 查看解析耗时	`echo "127.0.0.1 localhost" >> /etc/hosts`

注意：不要迷信“重启大法”。我们统计过，盲目重启 OpenClaw 服务后，73% 的延迟问题在 2 小时内复发。必须先用上表定位根因，再针对性修复。

5.2 “Skills 安装失败”的 7 个隐藏雷区与避坑指南

热词里“openclaw skill 安装”相关问题占比最高，但多数教程只教 git clone 和 chmod ，漏掉了这些关键细节：

Skill 目录权限陷阱 ：OpenClaw 默认以 nobody 用户运行，但很多 Skill 的 install.sh 用 sudo 创建目录，导致权限为 root:root 。解决方案：所有 Skill 目录创建后执行 chown -R nobody:nogroup /etc/openclaw/skills/* 。
Python 环境隔离缺失 ： sql-explainer 依赖 sqlparse==0.4.4 ，而系统 Python 已装 0.4.3 。不能 pip install --force-reinstall ，必须用 venv ：
```
python3 -m venv /etc/openclaw/skills/sql-explainer/venv
/etc/openclaw/skills/sql-explainer/venv/bin/pip install sqlparse==0.4.4
```
Git 子模块未初始化 ： pr-merger 依赖 git-subrepo 子模块， git clone 默认不拉取。必须：
git submodule update --init --recursive
Shell 版本兼容性 ： file-searcher 的 pre_hook 用到了 [[ ]] 语法，在 CentOS 7 的 /bin/sh （dash）下报错。解决方案：在 skill.yaml 中显式指定 shell：
pre_hook: "/bin/bash -c '...'
路径硬编码失效 ：原版 git-diff-analyzer 写死 /home/ubuntu/project ，必须改为相对路径：
git diff --no-index /dev/null "$INPUT_FILE" → git diff --no-index /dev/null "$(pwd)/$INPUT_FILE"
大文件描述符限制 ：Skill 并发数 >50 时， Too many open files 错误频发。需在 openclaw.service 中添加：
[Service] LimitNOFILE=65536
时区不一致导致日志乱序 ：ECS 实例时区为 UTC，但 Skill 日志写入本地时间。统一为 UTC：
timedatectl set-timezone UTC

这些细节，90% 的公开教程都不会提，但每一个都足以让部署卡住一整天。我们把这些写进了 skills-install-checklist.md ，每次新增 Skill 前必过一遍。

5.3 千问模型接入失败的 3 类高频故障与现场诊断法

“claude code 怎么接入千问api”、“codex接入千问”等热词，反映出大量用户试图把千问塞进其他框架，结果失败。但在 OpenClaw 里，接入失败基本就三类：

故障类型 1：HTTP 400 Bad Request —— Prompt 格式不匹配
现象： curl -X POST http://localhost:8080/skill/sql-explainer -d '{"input":"SELECT * FROM users"}' 返回 {"error":"invalid request"} 。
诊断：抓包看 Ollama 请求：

tcpdump -i lo port 11434 -w /tmp/ollama.pcap & 
# 触发一次失败请求
# 然后用 Wireshark 打开 pcap，过滤 http.request.method == "POST"

发现 OpenClaw 发送的 JSON 是：

{"model":"qwen3.5-coding","messages":[{"role":"user","content":"..."}]}

而 Qwen3.5:9b 的 Ollama 接口要求 messages 必须包含 system 角色。解决方案：在 model_config.yaml 中添加 system_prompt ：

models:
  - name: "qwen3.5-coding"
    system_prompt: "You are a senior database engineer. Explain SQL queries in detail."

故障类型 2：HTTP 500 Internal Error —— 模型权重加载失败
现象： ollama run qwen3.5:9b 报错 failed to load model: invalid model format 。
诊断：查看 Ollama 日志：
tail -100 /var/log/ollama.log | grep -A5 -B5 "qwen3.5"
发现 error loading model: GGUF: unsupported version 3 。
原因：Qwen3.5:9b 的 GGUF 格式版本为 3，而 Ollama 0.3.4 只支持到版本 2。解决方案：升级 Ollama 或降级模型（我们选择后者，用 qwen3.5:9b-q4_k_m ，其 GGUF 版本为 2）。

故障类型 3：Connection Refused —— 端口监听地址错误
现象：OpenClaw 启动时报 failed to connect to ollama: dial tcp 127.0.0.1:11434: connect: connection refused 。
诊断： netstat -tuln | grep 11434 发现 Ollama 监听的是 ::1:11434 （IPv6），而 OpenClaw 默认连 127.0.0.1 （IPv4）。解决方案：在 ~/.ollama/config.json 中强制 IPv4：