Hermes 搭建 Karpathy LLM Wiki：进阶版

最新推荐文章于 2026-06-22 22:37:24 发布

原创最新推荐文章于 2026-06-22 22:37:24 发布 · 1.4k 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#AI编程

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

Hermes 搭建 Karpathy LLM Wiki：进阶版

在构建知识库时，我们常面临一个选择：是采用传统的 RAG（检索增强生成）模式，还是构建一个更深度的、类似“编译”的 Wiki 系统？

Andrej Karpathy 曾提出 LLM Wiki 的核心理念：将知识视为代码，通过“编译”过程将静态文档转化为可演化的语义网络。本文将介绍如何利用 Hermes Agent 这一强大的工具，搭建一个具备自改进能力的“进阶版” LLM Wiki。

1. 核心理念：从“解释执行”到“编译执行”

传统的 RAG 模式类似于“解释执行”：每次查询时，系统都要从海量切片中动态检索相关信息，重新组合上下文。这种方式缺乏状态积累，难以处理跨文档的深层推理，且容易在处理矛盾信息时产生幻觉。

而 Karpathy 提倡的 LLM Wiki 则是“编译执行”：

预处理：在写入阶段就完成知识的深度解析、关联与结构化。
状态积累：知识不再是孤立的切片，而是相互链接的实体网络。
一致性：通过严格的 Schema 规则，确保知识库内部的逻辑自洽。

2. 为什么选择 Hermes？

Hermes Agent 不仅仅是另一个 LLM 包装器，它独特的架构使其成为搭建此类 Wiki 的理想底座：

自改进循环：Hermes 具备 Skill 沉淀机制。每执行约 15 次工具操作，它会自动将重复的逻辑固化为可复用的 Skill Markdown 文件。这意味着维护 Wiki 的许多重复性工作（如格式整理、引用生成）会随着时间推移变得越来越自动化。
双层记忆架构：
- L1 持久记忆：存储核心实体与关系，确保关键知识不丢失。
- L2 SQLite 全文检索：支持快速回溯原始文档。
  这种组合既保证了知识的稳定性，又提供了高效的检索能力。

3. 进阶实战：构建知识编译流水线

要搭建进阶版 Wiki，关键在于设计一条自动化的“知识编译流水线”。以下是具体步骤：

3.1 定义 Wiki Schema（模式）

Schema 是知识库的“宪法”，定义了数据的结构和处理规则。创建一个 wiki_schema.yaml 文件：

version: 1.0
directives:
  # 实体抽取规则
  - name: extract_entities
    type: entity_recognition
    params:
      categories: ["概念", "人物", "技术栈", "项目"]
      strict_mode: true # 严格模式，未识别实体需人工复核

  # 双向链接规则
  - name: bi_linker
    type: backlinking
    params:
      match_threshold: 0.85
      auto_create_stub: true # 链接不存在时自动创建词条存根

  # 知识 Lint：一致性检查
  - name: knowledge_lint
    type: validation
    params:
      check_conflicts: true # 检查同一概念的不同描述是否矛盾
      check_dead_links: true

3.2 配置 Hermes Agent

初始化 Hermes 工作区，并赋予 Agent “知识编译工程师”的角色。

初始化命令：

hermes init --project-name "karpathy_wiki" --memory-backend sqlite

配置角色 (USER.md)：

# Role: 知识编译工程师

## Goal
根据 wiki_schema.yaml 将输入的原始文档编译为标准的 Markdown Wiki 词条。

## Constraints
- 必须使用双向链接 [[Link]] 格式。
- 发现定义矛盾需在文档末尾标注 <CONFLICT> 标签。
- 保持学术化、严谨的语调。

3.3 实现自动化编译逻辑

利用 Python 脚本作为 Hermes 的工具链，处理复杂的文档解析，再由 Hermes 根据 Schema 进行重写。

文档解析工具 (tools/parser.py)：

import fitz  # PyMuPDF

def parse_pdf_to_md(file_path):
    """将 PDF 解析为 Markdown 文本，保留层级结构"""
    doc = fitz.open(file_path)
    md_content = ""
    for page in doc:
        text = page.get_text()
        md_content += text + "

"
    return md_content

Hermes 的核心编译流程（逻辑示意）：
Hermes 在接收到解析后的文本，会执行以下内部逻辑：

实体抽取：识别文本中的核心概念（如 "Transformer", "Attention"）。
记忆查询：检查 L1 记忆中是否已存在这些实体。
链接生成：如果存在，自动生成双向链接；如果不存在，根据配置创建存根。
一致性校验：对比当前描述与记忆中的描述，标记潜在冲突。
记忆更新：将处理后的结构化知识写入 L1 记忆。

4. 进阶特性：知识 Lint 与自演化

4.1 自动化知识一致性检查

这是进阶版 Wiki 区别于普通笔记系统的杀手锏。Hermes 可以定期遍历 Wiki，充当“代码审查员”的角色。

场景：文档 A 中提到“Transformer 仅用于 NLP”，而新摄入的文档 B 提到“ViT 将 Transformer 用于视觉”。
处理：Hermes 会识别出这种语义冲突，生成一份 Conflict_Report.md，并尝试根据上下文或人工输入进行修正，确保知识库的准确性。

4.2 技能沉淀与自进化

随着 Wiki 内容的增加，Hermes 会通过其 Skill 机制不断进化。

例如，在处理了大量论文后，Hermes 可能会自动生成一个新的 Skill 文件：

<!-- skills/auto_format_citations.md -->
## Skill: 自动格式化引用
**Trigger**: 用户输入包含 "arxiv" 或 "doi" 链接时
**Action**: 
1. 提取 ID。
2. 访问 API 获取元数据。
3. 转换为 BibTeX 格式。
**Usage**: 自动应用于后续所有文档 Ingest 过程。

这意味着，Wiki 越丰富，Agent 越聪明，维护成本反而越低。