我给 AI Agent 加上长期记忆后踩了 4 个坑：召回率从 89% 掉到 31%，修了 3 天才稳住

最新推荐文章于 2026-06-22 20:56:42 发布

原创最新推荐文章于 2026-06-22 20:56:42 发布 · 245 阅读

2 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

我给 AI Agent 加上长期记忆后踩了 4 个坑：召回率从 89% 掉到 31%，修了 3 天才稳住

我给 Agent 加上记忆功能的第一天，它把上周我跟同事讨论的"数据迁移方案 A"当成今天的任务执行了——那次讨论早被否决了，但向量检索把它捞了回来，Agent 信心满满地开始写迁移脚本。更离谱的是，问它"上周五我们决定的 API 限流阈值是多少"，它从一段 3 周前的对话里翻出了旧的数值。召回率从单轮对话的 89% 暴跌到跨会话的 31%。

这篇文章记录我搭建 Agent 记忆系统的完整踩坑过程——如果你正准备给 AI Agent 接向量数据库做长期记忆，这 4 个坑大概率会碰到。

坑 1：向量相似 ≠ 时间相关——旧信息污染新对话

最简方案：每条对话存成向量 → 新问题来了向量检索 top-3 → 拼到 prompt 里给 LLM。

import chromadb
from chromadb.utils import embedding_functions

client = chromadb.PersistentClient(path="./agent_memory")
collection = client.get_or_create_collection(
    "conversations",
    embedding_function=embedding_functions.OpenAIEmbeddingFunction()
)

# 检索相关记忆
results = collection.query(query_texts=["API 限流阈值是多少"], n_results=3)
context = "\n".join(results["documents"][0])

问题出在哪？向量相似度只看语义，不看时间。"限流阈值"这个词在 3 周前的对话里出现了 5 次，语义上高度匹配，但那个值是旧版本的。当前版本的阈值只在昨天的一句话里提过一次——被 top-3 挤掉了。

修法：加时间衰减权重。

from datetime import datetime, timedelta

def time_decay_score(similarity, timestamp_str, half_life_days=7):
    age_days = (datetime.now() - datetime.fromisoformat(timestamp_str)).days
    decay = 0.5 ** (age_days / half_life_days)
    return similarity * decay

# 检索 10 个候选，按时间衰减后重排
results = collection.query(query_texts=[query], n_results=10)
scored = []
for doc, dist, meta in zip(results["documents"][0], results["distances"][0], results["metadatas"][0]):
    sim = 1 - dist  # Chroma 返回 L2 距离
    final_score = time_decay_score(sim, meta["timestamp"])
    scored.append((final_score, doc))

scored.sort(reverse=True)
top3 = [doc for _, doc in scored[:3]]

加上半衰期 7 天的衰减后，召回准确率从 31% 回到了 62%。但还有问题——某些"长期有效"的信息（比如系统架构、代码规范）不应该被衰减。需要引入"信息持久度"标签。

坑 2：Agent 无法区分"事实"和"讨论"——把否决的方案当任务执行

这是最危险的一类错误。Agent 检索到一段对话：“我觉得数据迁移用方案 A 比较好，因为我们现有的 ETL 管道兼容。” 它不知道这段对话的后续是"算了，方案 A 的停机时间太长，改用方案 B"——因为后续对话没被检索到。

根因：每段对话独立存储，上下文断裂。改用一个方案单条记录，后续更新时合并上下文。

def upsert_memory(topic_id, new_content, decision=None):
    # 检索该话题的已有记录
    existing = collection.get(ids=[f"topic_{topic_id}"])
    
    if existing["documents"]:
        # 合并：旧内容 + 新结论
        merged = f"{existing['documents'][0]}\n---更新---\n{new_content}"
        if decision:
            merged += f"\n**最终决策**: {decision}"
    else:
        merged = new_content

    collection.upsert(
        ids=[f"topic_{topic_id}"],
        documents=[merged],
        metadatas=[{"timestamp": datetime.now().isoformat(), "status": decision or "discussing"}]
    )

每条记忆带上状态标签（discussing / decided / implemented / deprecated），检索时 LLM 根据状态判断可信度。这一步把事实性错误从 37% 降到了 11%。

坑 3：多轮追问场景下，记忆和当前对话打架

单轮问答准确率 89%。但用户开始追问：

Q1：“我们 API 网关用的什么？” → ✅ 正确回答 Kong
Q2：“为什么选它？” → ❌ 开始引用 2 个月前选型讨论的"Nginx 性能好"

实际选 Kong 的原因（插件生态、Dashboard、团队已有经验）存在昨天的记忆里，但 LLM 在处理"为什么选它"时过度依赖当前检索结果——而当前检索返回的是 2 个月前选型初期的讨论。

修法：先检索再压缩，按话题去重。

def hybrid_retrieve(query, top_k=5):
    # 第一轮：语义召回 20 个候选
    candidates = collection.query(query_texts=[query], n_results=20)
    
    # 按 topic_id 分组，每组只保留最新的
    by_topic = {}
    for doc, meta in zip(candidates["documents"][0], candidates["metadatas"][0]):
        tid = meta.get("topic_id", "unknown")
        if tid not in by_topic or meta["timestamp"] > by_topic[tid][1]:
            by_topic[tid] = (doc, meta["timestamp"], meta.get("status"))
    
    # 时间衰减 + 状态加权
    status_weight = {"decided": 1.0, "implemented": 0.9, "discussing": 0.5, "deprecated": 0.2}
    scored = []
    for tid, (doc, ts, status) in by_topic.items():
        score = time_decay_score(1.0, ts) * status_weight.get(status, 0.5)
        scored.append((score, doc))
    
    scored.sort(reverse=True)
    return [doc for _, doc in scored[:top_k]]

去重 + 状态加权后，多轮追问的准确率从 62% 升到 85%。

坑 4：记忆膨胀——存了 3 周后检索延迟从 0.3 秒涨到 4.7 秒

3 周存了 8700+ 条记忆片段，每次检索都在全量扫描。ChromaDB 在小数据量下很快，但向量索引没有分区机制，数据越多越慢。

修法：分层存储——热记忆（7 天内）+ 摘要层（7-30 天）+ 归档（30 天+）。

from collections import defaultdict

def summarize_old_memories(days_threshold=7):
    cutoff = (datetime.now() - timedelta(days=days_threshold)).isoformat()
    
    # 获取所有旧记录
    old = collection.get(where={"timestamp": {"$lt": cutoff}})
    
    # 按 topic_id 分组，用 LLM 生成每组的摘要
    by_topic = defaultdict(list)
    for doc, meta in zip(old["documents"], old["metadatas"]):
        by_topic[meta.get("topic_id", "general")].append(doc)
    
    summaries = {}
    for tid, docs in by_topic.items():
        # 实际项目中用 LLM 生成摘要，这里用简单拼接示意
        summaries[tid] = f"[{tid}] 历史摘要: " + " | ".join(docs[-3:])
    
    # 删旧写新
    collection.delete(ids=[f"summary_{tid}" for tid in summaries])
    for tid, summary in summaries.items():
        collection.add(
            ids=[f"summary_{tid}"],
            documents=[summary],
            metadatas=[{"timestamp": datetime.now().isoformat(), "is_summary": True}]
        )
    
    # 删除原始旧记录
    collection.delete(ids=old["ids"])

分层后，检索先查热记忆（命中率 ~70%），未命中再查摘要层。延迟回到 0.5 秒以内。

最终架构

新对话 → 实时存储 (ChromaDB, 7天内全量)
               ↓
         7天后触发摘要 → LLM 压缩 → 摘要层 (7-30天)
                                    ↓
                              30天后 → 归档层 (仅保留决策/结论)

准确率：单轮 91%，多轮 85%，跨会话 78%。检索延迟 < 0.6 秒。