AI Agent 开发教程

原创已于 2026-06-01 10:20:18 修改 · 513 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

于 2026-05-08 19:10:17 首次发布

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

你有没有这种感觉？

ChatGPT 挺能聊的。但让它帮你查个天气，它会说"我没法访问网络"。让它帮你发封邮件，它会说"我没有发送邮件的能力"。说白了，它只能"动嘴"，不能"动手"。这就是普通聊天机器人的局限。2026 年，一个新东西出现了。它叫 AI Agent。它的核心能力就是两个字：执行。光说不练，那是嘴把式。能说能练，那才叫真本事。

一、AI Agent 是什么

先说个类比。你去餐厅吃饭。普通聊天机器人就像一个只会背菜单的服务员。你问什么，它答什么。你让它去厨房催菜，它做不到。你让它帮你换道菜，它做不到。AI Agent 呢？它像是一个有决策权的领班。你说"今晚商务宴请，帮我安排一下"。它会自己规划、自己协调、自己落实。它能调动资源，能处理意外，能记住你的口味。这就是本质区别。

普通 AI：接收问题，输出答案。

AI Agent：接收目标，自主完成。

它能感知环境，能制定计划，能调用工具，能从结果中学习。用一个公式表示

AI Agent = LLM（大脑） + Tools（手脚） + Memory（记忆）

LLM 是思考引擎。Tools 是执行接口。Memory 是上下文存储。

三个东西加在一起，才是一个完整的 Agent。

（1）LLM：为什么现在才爆发

LLM 是 Agent 的大脑。没有它，Agent 就是个空壳。2026 年之前，LLM 的能力不够。幻觉严重，推理不稳，成本还高。DeepSeek V4 改变了游戏规则。它的 API 价格降到了 0.025 元 / 百万 Token。比 GPT-5.5 便宜 36 倍。成本降下来，Agent 才能真正落地。原来一个月 10000 元的成本，现在 550 元就够了。

（2）Tools：让 AI 从说到做

Tools 是 Agent 的手脚。LLM 再强，也只能输出文字。有了 Tools，它才能真正操作世界。常见的 Tools 有这么几类：第一类是搜索工具。Google 搜索、百度搜索、DuckDuckGo。第二类是 API 调用。天气 API、邮件 API、支付 API、数据库查询。第三类是代码执行。Python 解释器、代码沙箱。第四类是文件操作。读 PDF、生成 Excel、写入文档。第五类是浏览器自动化。网页抓取、表单填写、点击交互。工具调用的过程很简单。用户说"帮我查一下北京今天的天气"。Agent 会做四件事：识别意图、选择工具、执行调用、处理结果。它先理解你要什么，再调用天气 API，最后把数据整理成你能看懂的话。

（3）Memory：让 AI 认识你

Memory 是 Agent 的记忆。普通聊天机器人每次对话都是独立的。它不记得你是谁，不记得你们聊过什么。Agent 不一样。它有记忆。

短期记忆是当前对话的上下文。你问了一个问题，它会记住这个问题和它的回答。

长期记忆是你的用户画像。你喜欢什么，讨厌什么，它都会记住。

技能记忆是执行经验。上次怎么做对的，这次可以借鉴。

有了这三层记忆，Agent 才能越用越好用。

二、ReAct 范式：边想边做

ReAct = Reason + Act。推理加行动。

这个概念很简单。人类解决问题就是这样。边想边做，边做边想。

举个例子。你想知道某只股票值不值得投资。

第一轮，你思考：我需要先获取这家公司的财务数据。行动：调用搜索工具查财报。观察：拿到了 2025 年的年报。

第二轮，你思考：光有年报不够，我需要对比行业水平。行动：调用 API 获取行业数据。观察：拿到了对比数据。

第三轮，你思考：数据够了，可以开始分析了。行动：调用分析工具生成报告。观察：报告完成。

这就是 ReAct 的循环。

思考 → 行动 → 观察 → 思考 → 行动 → 观察 ...

每一步都有意义。思考让你知道该做什么，行动让你真正去做，观察让你知道做得对不对。

（1）ReAct 和传统 Prompt 的区别

传统 Prompt 模式下，AI 直接输出答案。你不知道它是怎么想的，也不知道它哪里可能出错。ReAct 模式下，每个步骤都是透明的。思考过程外化了，出错的地方可以追溯。如果某个行动的结果不符合预期，你可以在观察阶段发现，然后在下一轮思考中调整策略。这就是可控性。

（2）为什么它更好

第一，它更透明。你能看到 Agent 的思考过程。第二，它更稳定。错了可以纠正，不会一条道走到黑。第三，它更可靠。多步任务不会迷失方向。对于复杂任务来说，这三点至关重要。

三、主流框架怎么选

2026 年，Agent 开发框架很多。新手容易犯的选择困难症又犯了。我来帮你梳理一下。

（1）五大框架对比

LangChain / LangGraph 是生态最全的框架。Python 和 JS 都能用。企业级应用首选。2026 年推出了统一的 create_agent API，上手比以前容易多了。

Dify 是零代码 / 低代码平台。不用写代码，拖拖拽拽就能搭出一个 Agent。非技术人员的首选。

AutoGen 是微软出品的框架。核心能力是多 Agent 协作。Agent 之间可以自由对话、协商。适合复杂推理场景。

CrewAI 走的是角色分工路线。每个 Agent 有固定的角色，研究员、分析师、写手。声明式配置，5 分钟上手。

Coze（扣子） 是字节跳动的产品。国内生态完善，有 60 多个预置插件。快速开发 Bot 的首选。

（2）怎么选

你的场景是什么？

如果是快速原型或个人项目，选 Dify 或 Coze。

如果是企业级生产应用，选 LangChain 1.0。

如果是内容生产流水线，选 CrewAI。

如果是复杂推理或研究实验，选 AutoGen。

如果是入门学习，选 LangChain 1.0。生态最完善，遇到问题容易找到答案。

（3）CrewAI 和 AutoGen 的区别

CrewAI 像特种部队。每个 Agent 有固定角色，按流程执行任务。清晰、明了、不混乱。AutoGen 像研讨会。Agent 之间自由讨论，动态决策。灵活，但不容易控制。状态机模式的 LangGraph 则是另一套思路。它把整个流程建模成状态机。节点是处理步骤，边是状态转换，状态是流转的数据。可观测性强，支持断点续跑，适合需要人工介入的生产场景。

四、从零搭建天气查询 Agent

说多了容易晕。来点实际的。下面是一个完整的可运行 Agent。用 LangChain 1.0 和 DeepSeek 搭建。

（1）安装依赖

pip install langchain langchain-core langchain-deepseek langgraph langchain-community python-dotenv

（2）准备 API Key

去 DeepSeek 平台申请一个 API Key。在项目根目录创建 .env 文件：

echo "DEEPSEEK_API_KEY=your_api_key_here" > .env

（3）完整代码

"""
天气查询 Agent：用 LangChain 1.0 + DeepSeek 实现
运行方式：python weather_agent.py
"""

import os
from dotenv import load_dotenv
from langchain.agents import create_agent
from langchain.tools import tool
from langchain_deepseek import ChatDeepSeek

load_dotenv()

# 定义天气查询工具
@tool
def get_weather(city: str) -> str:
    """查询城市实时天气"""
    weather_db = {
        "北京": "晴，26°C，PM2.5 良",
        "上海": "多云，24°C，PM2.5 优",
        "深圳": "雷阵雨，28°C，PM2.5 良",
        "杭州": "阴，23°C，PM2.5 优",
        "广州": "暴雨，27°C，PM2.5 良"
    }
    return weather_db.get(city, f"暂不支持查询{city}的天气")

# 定义天气预报工具
@tool
def get_forecast(city: str, days: int = 3) -> str:
    """查询未来天气预报"""
    forecast_db = {
        "北京": ["明天：晴，27°C", "后天：多云，25°C", "大后天：阴，23°C"],
        "上海": ["明天：多云，25°C", "后天：小雨，22°C", "大后天：晴，26°C"],
        "深圳": ["明天：雷阵雨，28°C", "后天：暴雨，26°C", "大后天：阴，27°C"]
    }
    forecasts = forecast_db.get(city, [f"{city}未来{days}天暂无预报"])
    return "\n".join(forecasts[:days])

# 初始化 DeepSeek 模型
model = ChatDeepSeek(
    model="deepseek-chat",
    temperature=0.7,
    max_tokens=2000,
    api_key=os.getenv("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com"
)

# 系统提示词
system_prompt = """你是一个专业、友好的天气助手。
职责包括：
1. 用户问天气时，用 get_weather 工具
2. 用户问预报时，用 get_forecast 工具
3. 不支持的城市要礼貌告知
回答要简洁、友好。"""

# 创建 Agent
agent = create_agent(
    model=model,
    tools=[get_weather, get_forecast],
    system_prompt=system_prompt
)

# 测试函数
def single_query_example():
    """单次查询示例"""
    result = agent.invoke({
        "messages": [{"role": "user", "content": "北京今天天气怎么样？"}]
    })
    print(f"回答：{result['messages'][-1].content}")

# 交互式对话
def run_conversation():
    """运行对话"""
    print("天气助手 Agent 已启动！输入'退出'结束对话\n")
    messages = []
    
    while True:
        user_input = input("您：")
        if user_input.lower() in ["退出", "exit", "quit"]:
            print("再见！")
            break
        
        messages.append({"role": "user", "content": user_input})
        
        try:
            result = agent.invoke({"messages": messages})
            response = result["messages"][-1].content
            messages.append({"role": "assistant", "content": response})
            print(f"Agent：{response}\n")
        except Exception as e:
            print(f"出错：{e}")
            break

if __name__ == "__main__":
    single_query_example()
    run_conversation()

（4）运行效果

回答：北京今天的天气是：晴，26°C，PM2.5 良。适合户外活动！

您：北京和上海的天气对比
Agent：根据查询结果，北京和上海的天气对比如下：

北京：晴，26°C，PM2.5 良
上海：多云，24°C，PM2.5 优

北京今天天气晴朗，上海则是多云。如果您在规划出行，可以参考以上信息。

（5）代码解析

@tool 装饰器用来定义工具。Agent 能自动理解每个工具的用途。ChatDeepSeek 初始化模型。这里用的是 DeepSeek V3，便宜、稳定、够用。create_agent 是 LangChain 1.0 的统一 API。传入模型、工具、提示词三样东西，就能创建一个 Agent。agent.invoke 执行调用。传入消息历史，返回 Agent 的回复。

五、多 Agent 协作

一个人能力有限。多个 Agent 配合，能做更复杂的事。想象你要分析一家公司值不值得投资。一个 Agent 搞不定。研究员要搜集数据，分析师要看财报，写手要出报告。这正好是三个角色。

（1）CrewAI 多 Agent 示例

"""
市场调研团队：用 CrewAI 实现多 Agent 协作
"""

from crewai import Agent, Task, Crew, Process
from langchain_deepseek import ChatDeepSeek
import os
from dotenv import load_dotenv

load_dotenv()

llm = ChatDeepSeek(
    model="deepseek-chat",
    api_key=os.getenv("DEEPSEEK_API_KEY"),
    base_url="https://api.deepseek.com"
)

# 定义研究员 Agent
researcher = Agent(
    role="市场调研员",
    goal="收集目标公司的相关信息和数据",
    backstory="你是一家咨询公司的资深研究员，擅长从公开信息中挖掘数据。",
    llm=llm,
    verbose=True
)

# 定义分析师 Agent
analyst = Agent(
    role="财务分析师",
    goal="分析公司的财务状况和投资价值",
    backstory="你曾在投行工作10年，擅长财务建模和价值评估。",
    llm=llm,
    verbose=True
)

# 定义写手 Agent
writer = Agent(
    role="投资报告撰写员",
    goal="将调研和分析结果整理成专业的投资报告",
    backstory="你是一位资深金融作家，为多家权威媒体撰写专栏。",
    llm=llm,
    verbose=True
)

# 定义三个任务
research_task = Task(
    description="调研某科技公司的基本信息：主营业务、市场份额、竞争格局。",
    expected_output="一份结构化的公司调研报告。",
    agent=researcher
)

analysis_task = Task(
    description="分析公司的盈利能力、成长性、风险因素，给出初步评级。",
    expected_output="详细的财务分析报告。",
    agent=analyst,
    context=[research_task]
)

writing_task = Task(
    description="将调研和分析内容整合成完整的投资分析报告。",
    expected_output="一份专业的 Markdown 格式报告。",
    agent=writer,
    context=[research_task, analysis_task],
    output_file="investment_report.md"
)

# 组建团队
crew = Crew(
    agents=[researcher, analyst, writer],
    tasks=[research_task, analysis_task, writing_task],
    process=Process.sequential
)

# 启动执行
result = crew.kickoff(inputs={"company": "某新能源汽车公司"})
print(result)

（2）执行流程

研究员 Agent 先启动。它搜集公开信息，输出调研报告。分析师 Agent 接着启动。它读取研究员的报告，分析财务数据，输出分析结论。写手 Agent 最后启动。它整合前两个 Agent 的输出，生成一份完整的报告。这就是顺序协作模式。每个 Agent 做自己擅长的事，结果自动流转到下一个环节。

（3）常见的 Agent 角色

Planner 负责理解目标，拆解任务。它拿到用户需求后，会分解成多个子任务，分配给其他 Agent。

Executor 负责执行具体操作。调用工具、写代码、处理数据，都归它管。

Critic 负责评估输出质量。它像审核员一样，检查前面 Agent 的工作是否达标。

Memory 负责管理全局信息。所有 Agent 的输出都会汇聚到这里，确保信息不丢失。

六、2026 年的趋势

（1）本地化部署

API 费用是痛点。很多人想用 Agent，但不想一直花钱。2026 年，本地部署已经非常成熟。

Ollama 可以让你在本地跑模型。Qwen2.5-7B、LLaMA3-8B 都能跑。8GB 以上内存就行。LM Studio 是桌面版应用。Mistral-7B、DeepSeek-7B 都能加载。适合开发测试。代码改起来很简单。换一个本地模型实例，其他代码基本不用动。

from langchain_community.chat_models import ChatOllama

local_model = ChatOllama(
    model="deepseek-r1:7b",
    base_url="http://localhost:11434"
)

# 其他代码完全相同
agent = create_agent(
    model=local_model,
    tools=[get_weather],
    system_prompt="你是一个天气助手"
)

（2）工程化

2024 年的 Agent 大多是玩具。能跑，但不稳定。2026 年的 Agent 已经是产品。可靠性、可观测性、成本控制都上了台阶。可靠性方面，有错误处理、重试机制、熔断保护。出错不会死循环，不会无限重试。可观测性方面，LangSmith、Weave 等工具可以追踪每个步骤。Agent 在想什么、在做什么，一目了然。成本控制方面，模型路由会根据任务难度选择合适的模型。小模型能搞定的事，不浪费大模型的算力。LangChain 1.0 的 Checkpointer 是个好东西。它支持断点续跑。对话中断了不怕。恢复时从头来过，Agent 会从上次的状态继续。

from langgraph.checkpoint.memory import InMemorySaver

checkpointer = InMemorySaver()

agent = create_agent(
    model=model,
    tools=tools,
    checkpointer=checkpointer
)

# 对话中断后，可以恢复
config = {"configurable": {"thread_id": "session_123"}}
result = agent.invoke({"messages": [...]}, config=config)

（3）就业前景

需求在涨。人才在缺。AI Agent 相关岗位的需求环比增长了 120%。人才缺口超过 500 万。59.6% 的岗位月薪超过 25K。高的能到 60K。高薪岗位需要的技能有哪些？第一，LangChain / LangGraph。企业级 Agent 开发的核心技能。第二，多 Agent 协作。CrewAI、AutoGen 这类框架的用法。第三，RAG 技术。知识库增强检索，让 Agent 能访问私有数据。第四，工具调用。Function Calling、Tool Binding，这些是 Agent 操作世界的基础。第五，工程化能力。Docker、K8s、CI/CD，生产部署的必备技能。

（4）学习路径

入门阶段需要三个月。先学 Python 基础和异步编程。再了解 LLM 的工作原理。然后学会调用 API，DeepSeek 最便宜。最后用 LangChain 1.0 做一个小型 Agent。进阶阶段也是三个月。掌握 RAG 技术和向量数据库。学习多 Agent 协作框架。理解 ReAct、CoT 等推理范式。独立完成一个完整项目。高级阶段没有期限。设计多 Agent 协作架构。实现生产环境部署。掌握 Agent 评估和安全治理。构建可复用的 Agent 平台。

七、你现在可以做什么

核心要点就三个。第一，AI Agent 等于 LLM 加工具加记忆。三个缺一不可。第二，ReAct 范式让 Agent 边想边做。思考、行动、观察，循环往复。第三，选框架要看场景。入门用 LangChain，原型用 Dify 或 Coze，多 Agent 用 CrewAI。你今天就可以动手。去申请一个 DeepSeek API Key。跑一遍上面的天气 Agent 代码。五分钟的事。本周试试 CrewAI。搭一个多 Agent 小组，感受一下协作的威力。本月完成一个完整项目。股票分析助手、技术博客生成器、邮件自动回复器，都行。持续学习，关注进展。这个领域变化很快，每周都有新东西。

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅