这是一个最常被问的问题:
"GPT-4、Claude、DeepSeek 都这么强了,为什么我们还要智能体?直接调 API 不就好了吗?"
这篇文章想把这个问题一次性讲透。
一 · 大模型做了什么 What LLMs Actually Do
把 LLM 抽象到最本质 —— 它是一个函数:
LLM: tokens_in → next_token_distribution
A pure function. Stateless. No memory. No hands.
A pure function. Stateless. No memory. No hands.
它能做什么:
- 语言理解 —— 从模糊自然语言中提炼结构化意图。
- 知识调用 —— 从预训练里的世界知识中抽取。
- 逻辑推理 —— 一步一步做数学、编程、分析。
- 生成 / 续写 —— 文章、代码、对话。
- 格式转换 —— 文本 → JSON,自然语言 → SQL,等等。
二 · 大模型做不了什么 What LLMs Can't Do Alone
注意到 —— 上面所有能力,都是"输入一段话,输出一段话"。真实世界的任务里,有一整类事情 LLM 本身做不了:
- 执行副作用 —— 发邮件、调 API、改数据库,LLM 不会主动做。
- 多步规划 + 回头检查 —— 单次调用是"一步棋",不是"一局棋"。
- 跨会话记忆 —— Context 窗一关,它忘得比狗还快。
- 和真实系统打交道 —— 实时数据、文件、图形界面,它都看不见。
- 自我纠错 —— 说错了,它不会主动说"对不起,我重来"。
三 · 智能体负责什么 What Agents Add
Agent 的五件事,每一件都对应 LLM 的一个缺口:
| Agent 加的能力 | 补的是 LLM 哪个缺口 |
|---|---|
| Loop · 循环 | LLM 是一次性函数 · Agent 让它"继续想" |
| Tools · 工具 | LLM 只会说 · Agent 让它"能做" |
| Memory · 记忆 | LLM 健忘 · Agent 替它记笔记 |
| Planning · 规划 | LLM 走一步看一步 · Agent 让它先列 TODO |
| Reflection · 自省 | LLM 不会说"我错了" · Agent 让它对照检查 |
四 · 一个类比 · CPU 和操作系统 The CPU/OS Analogy
Karpathy 2024 年提出的一个比喻,后来被广泛采纳:
LLM 是 CPU —— 有原始计算力,但没 OS 就什么都干不了。
Agent 是 OS —— 调度任务、管内存、管权限、接外设。
工具是外设 —— 键盘、显示器、磁盘、网卡。
记忆是文件系统 —— 长期存储 + 快速索引。
LLM is CPU. Agent is OS. Tools are peripherals. Memory is FS.
Agent 是 OS —— 调度任务、管内存、管权限、接外设。
工具是外设 —— 键盘、显示器、磁盘、网卡。
记忆是文件系统 —— 长期存储 + 快速索引。
LLM is CPU. Agent is OS. Tools are peripherals. Memory is FS.
这个类比好在哪里?好在它解释了"换 CPU" 和 "换 OS" 是两种不同的升级。
- GPT-4 → Claude 3.7 是换 CPU (单次推理能力变强)。
- Chatbot → Agent-based system 是装 OS (让 CPU 能真正组织生产)。
- 光换 CPU,OS 还是 DOS,那台计算机永远做不了真正的事。
五 · 各自的边界 Boundaries
什么时候"光 LLM 就够了"
- 单次问答:翻译、summarize、写邮件。
- 纯格式转换:文本 → JSON / SQL。
- 即席生成:头脑风暴、写作初稿。
什么时候"必须上智能体"
- 要和真实系统交互:读数据库、写入 ERP、发消息。
- 要跨多个步骤并可能回滚。
- 要跨会话保留状态。
- 要在出错时自动恢复。
- 要被审计 · 回溯 · 合规监管。
六 · 协作范式 The Collaboration
2026 年生产级 AI 产品的骨架,几乎都是这样:
┌─────────────────────────────────────────────────────┐ │ 用户 (User) │ ├─────────────────────────────────────────────────────┤ │ Agent Runtime · 管 loop, 管 memory, 管权限, 管观测 │ │ ├─ Planner (规划层) —— 拆任务成 TODO │ │ ├─ Executor (执行层) —— 循环调 LLM + 工具 │ │ └─ Reflector (自省层) —— 对照 checklist 检查 │ ├─────────────────────────────────────────────────────┤ │ LLM (GPT / Claude / DeepSeek / Qwen) │ ├─────────────────────────────────────────────────────┤ │ Tools via MCP │ │ ├─ 业务 API (CRM, ERP, 订单) │ │ ├─ 数据 API (向量库, 数据仓) │ │ └─ 系统 API (文件, 网络, 命令) │ ├─────────────────────────────────────────────────────┤ │ Memory Layer │ │ ├─ Session Store (短期) │ │ ├─ Vector DB (长期语义) │ │ └─ Knowledge Base (长期程序) │ └─────────────────────────────────────────────────────┘
大模型能力变强,是一条垂直的曲线 —— 越爬越高。
智能体的价值,是一个横向的平台 —— 把模型的能力兑换成业务结果。
没有 Agent,模型再强,也停在"会说话"这一层。
Without agents, models stay at "talking". With agents, they start "working".
智能体的价值,是一个横向的平台 —— 把模型的能力兑换成业务结果。
没有 Agent,模型再强,也停在"会说话"这一层。
Without agents, models stay at "talking". With agents, they start "working".
— 青岛火一五信息科技 · 2026 年 4 月 —