在正式开始学习之前,我们首先要做一件最重要的事情:对 AI Agent 应用进行祛魅。
大多数应用层的 AI Agent 应用,本质上就是对大模型能力的一次二次扩展。过去一年,许多创业团队尝试自己部署和微调本地模型,折腾几个月后发现效果还不如直接调用 DeepSeek、GPT、Claude 等大模型的 API 接口。于是行业逐渐达成共识:不自己训练模型,而是围绕模型的 API 构建上层应用。
这意味着什么?意味着我们的工作不是让模型"变聪明"——那是 OpenAI、Anthropic、DeepSeek 等公司的事情。我们的工作是给模型补上它缺失的能力:记忆、情绪、安全、持久化、多用户管理。这些能力的实现方式,就是本专栏要教你的全部内容。
AI 智能体开发,就是让大模型不只”回答一句话”,而是围绕一个目标,主动召回上下文、调用工具、执行多步动作,最终完成任务。
普通聊天模型接收输入、生成输出,一轮结束。而智能体会在”接收输入”和”生成输出”之间,插入一系列自主决策和动作。
用户问:
明天出门带什么?
普通聊天模型直接给出通用建议:带手机、钥匙、钱包,看天气决定是否带伞。这些话不算错,但它完全不了解你的真实情况。
智能体不会立刻回答,它会先执行一系列动作:
11. 读对话历史 → 你之前说过”明天去杭州找朋友”22. 读对话历史 → 你提到过”和女朋友一起去”33. 调用天气 API → 杭州明天小雨,17°C,风大44. 读用户档案 → 你经常忘带充电宝55. 组合上下文 → 目的地 + 同行人 + 天气 + 个人习惯66. 生成回答 → 针对性的出行准备清单
最终它给出的建议可能是:
明天去杭州有小雨,记得带伞和稍厚的外套。你之前总忘充电宝,这次别忘了。和女朋友出门,轻便双肩包比手拎方便。
区别不在于模型更聪明,而在于系统在回答前多做了几步工作。
下图直观对比了两种模式。普通聊天模型是一条直线:输入 → 模型 → 输出。而智能体在中间插入了意图判断、上下文召回等环节,并从对话历史、外部工具、长期记忆等多个来源收集信息,最终才交给 LLM 生成回复。
从上面的例子可以提炼出智能体区别于普通聊天的四个核心能力。下图展示了它们围绕 LLM 的整体架构关系——上下文召回负责"找信息",工具调用负责"获取外部数据",流程编排负责"决定执行顺序",状态管理负责"维护中间结果"。
智能体需要从多个来源收集与当前问题相关的信息:
| 信息来源 | 说明 | 技术实现 |
|---|---|---|
| 对话历史 | 当前会话中用户说过的内容 | 短期记忆 / 滑动窗口 |
| 长期记忆 | 跨会话保存的用户偏好和事实 | 向量数据库 + 语义检索 |
| 外部工具 | 实时数据(天气、日程、搜索结果) | Function Calling / Tool Use |
| 用户档案 | 用户的个人属性和习惯 | 结构化存储 |
核心问题是:为了回答这个问题,我需要补哪些信息,去哪里找?
不是所有问题都要查天气、读记忆、调工具。用户说”你今天想我了吗?”更偏情感互动,可能不需要任何工具;而”明天出门带什么?”则是典型的需要补上下文的问题。智能体的第一步是判断,而不是回答。
大模型本身没有实时数据,也无法直接操作外部系统。智能体通过 Tool Use(工具调用) 机制,让模型自主决定何时调用哪个工具,并把返回结果纳入上下文。
常见的工具类型:
以上面的例子为例:对话历史里不可能有”明天杭州下不下雨”这个信息,智能体必须调用天气 API 获取实时数据,回答才能从套话变成真正有用的建议。
当任务涉及多个步骤时,智能体需要决定执行顺序和条件分支,这就是 Agent Pipeline(编排管线)。
例如在 AI 伴侣场景中,一次对话可能触发这样的流程:
1用户消息2→ 意图识别3→ 情绪分析4→ 记忆检索5→ 是否需要工具?6├── 是 → 调用工具 → 整合结果 → 生成回复7└── 否 → 直接生成回复
这种流程编排通常通过 LangGraph 这类框架实现,把每个环节定义为图中的节点,通过状态流转控制执行路径。
智能体在多步执行过程中需要维护状态:当前处于哪个步骤、已经获取了哪些信息、下一步该做什么。
这和前端开发中的状态管理本质相同——只是管理的对象从 UI 状态变成了任务执行状态。一个对话可能跨越多轮才完成一个任务,期间的中间状态都需要被正确维护。