前言
写作动机
凌晨两点。窗外的城市早已安静,屏幕上只剩一个闪烁的光标。
我敲下 openclaw gateway run,按了回车。
几秒之内,Telegram 亮起绿灯,Discord 握手成功,一条从地球另一端——巴西圣保罗——发来的 WhatsApp 消息自动流入 Claude Opus。三秒后,回复抵达用户手机。没有胶水代码,没有手动调用,没有任何人工干预。一切浑然天成,仿佛这台机器天生就该这样运转。
我突然意识到,自己面前运行着的不是一个普通程序。它同时维护着数十个通道连接、数百个并发会话、数个 LLM Provider 的密钥轮转和降级链,还在后台静默执行着定时巡检任务——所有这些,跑在一台 4GB 内存的 VPS 上。
好奇心驱使我打开源码。从 src/gateway/server.impl.ts 第一行读起,一路读到凌晨五点。窗外的天色从漆黑变为铅灰。我合上笔记本,揉了揉发酸的眼睛,心里只有一个念头:
这不是一个聊天机器人框架。这是一个完整的 AI Agent 操作系统。
它拥有自己的进程模型(Gateway Daemon)、安全边界(工具策略管线 + Exec 审批)、通信协议(ACP)、调度系统(Cron + Heartbeat)和扩展机制(插件 + 技能)。其设计深度与复杂度,远超一般的 Web 应用或聊天机器人框架。那一刻,一颗种子悄然落地。
2024 到 2026 年间,Agent 框架如雨后春笋:LangChain、AutoGPT、CrewAI、Dify、Semantic Kernel——几乎每周冒出一个新名字。"5 分钟构建你的第一个 Agent"的教程铺天盖地,热闹非凡。然而,真正深入系统架构的技术文献——那种不仅告诉你怎么做,更追问为什么的文献——依然稀缺得令人不安。
演示 Agent 与生产 Agent 之间的差距,犹如纸飞机与波音 787 的差距。两者都能飞。只有一个能在万米高空的湍流中安全载客。
本书的目标,是将 OpenClaw 的源码转化为 AI Agent 架构的教科书。 不是 API 文档,不是使用手册,而是一本严谨的参考书——让你理解每个设计背后的为什么,看到被放弃的替代方案,厘清每一处权衡的得与失。无论你是否选择使用 OpenClaw,这些经验都可以直接迁移到你自己的 Agent 系统中。
据我所知,这是截至本书写作时,第一本从源码层面深度解析生产级 AI Agent 系统的技术专著。
本书与其他 AI/Agent 书籍有何不同
如果你在书店或网上搜索"AI Agent"相关书籍,大致会看到三类:
| 类别 | 典型内容 | 读完之后你会… |
|---|---|---|
| 概念入门书 | LLM 原理、Prompt Engineering 技巧、RAG 流程图 | 知道 Agent 是什么,但不知道怎么造一个 |
| API 实战书 | 用 Python 调 OpenAI API、LangChain 快速搭建、一章一个 Demo | 能跑通 Demo,但遇到生产问题无从下手 |
| 本书 | 逐模块解剖一个真实的、在生产中运行的 Agent 运行时的源码实现 | 理解 Agent 系统为什么这样设计,并能将经验迁移到任何框架 |
区别的核心在于:其他书教你使用工具,本书教你理解工具是如何被构建的。
这不是一个玩具项目的源码导读——OpenClaw 是一个真正的生产系统,同时管理数十个通道连接、数百个并发会话、多个 LLM Provider 的密钥轮转与降级链,在 4GB VPS 上 7×24 运行。你将看到的每一个设计决策,都经历过真实流量的锤炼、真实故障的考验、真实用户的反馈。
教科书给你答案。源码给你问题——以及回答这些问题的完整思考过程。
如果你的目标是"快速搭个能跑的 Demo",市面上有很多优秀的选择。但如果你想真正理解一个生产级 Agent 系统内部发生了什么——从消息进入到回复送出的每一步——这本书是为你写的。
OpenClaw 项目
OpenClaw 由 Mario Zechner 创建,是一个多通道 AI Agent 网关——它连接通信通道(Telegram、Discord、WhatsApp、Slack、Signal)与 LLM 提供商(OpenAI、Anthropic、Google、Ollama),编织出智能、持久的对话 Agent。
但 OpenClaw 的野心远不止于聊天。它是一座精心设计的建筑,地基之上层层叠叠:
- 技能系统——Agent 按需获取领域知识,不膨胀系统提示
- 子 Agent 编排——树形多 Agent 协作,推送式完成通知
- ACP 协议——跨进程编排不同 Agent 运行时
- 插件系统——覆盖每个阶段的生命周期钩子
- 安全模型——工具策略管线、Exec 审批、凭证隔离、内容消毒,层层设防
- Node 系统——移动伴侣应用赋予 Agent 相机、屏幕和位置能力
五大设计哲学贯穿始终:通道无关、模型无关、运行时而非框架、约定优于配置、渐进式复杂度。
最具架构特色的是它的自我定位——运行时系统而非编程框架。你不写代码构建 Agent,你写配置、SKILL.md 和 AGENTS.md。代码是平台,配置是产品。这一区分看似微妙,实则意义深远。
本书读者
这本书为五类读者而写:
AI Agent 架构师——每章包含与 LangChain、AutoGPT、CrewAI、Semantic Kernel、Dify 的框架横向对比,帮你在全景中定位每个设计选择。
资深后端工程师——源码级的并发模型、安全机制、容错策略与 token 预算感知优化,每一页都是可落地的工程实践。
开源贡献者——不仅知道代码在哪里,更理解它为什么这样写。读懂意图,才能写出好的贡献。
技术决策者——理解每个框架的设计目标与自然边界,做出有据可依的技术选型。
学生与研究者——每章包含系统性的设计分析和框架横向对比,可作为论文引用和研究参考。每章末尾的思考题覆盖概念理解、实践应用和开放讨论三个层次,既可用于课堂教学,也可作为研究方向的起点。
不适合的读者:如果你在寻找一本"如何用 Python 调用 ChatGPT API"的入门书,这不是。本书假设读者已具备编程能力,想深入理解系统级的 Agent 架构设计。
前提:具备 TypeScript/JavaScript 基础和 Node.js 开发经验。如果你接触过基本 LLM 概念或至少一个 Agent 框架,阅读会更加顺畅。
阅读路线图
本书支持多种阅读方式。你可以从第 1 章顺序通读,也可以根据自身情况选择快速路径:
| 路径 | 章节 | 适合 |
|---|---|---|
| 快速精华 | 前言 → 2 → 6 → 17 | 时间有限,2-3 小时获取 80% 架构洞察 |
| 初次接触 | 1 → 2 → 7 → 16 → 18 | 首次接触 Agent 系统,从直觉到完整认知 |
| 工程深入 | 2 → 4 → 5 → 6 → 10 → 13 → 17 | 有 Agent 经验,直入核心引擎 |
| 架构决策 | 2 → 6 → 9 → 13 → 17 → 18 | 架构师/决策者,关注设计权衡 |
| 学术研究 | 1 → 2 → 6 → 10 → 13 → 17 → 18 | 论文写作、课题研究 |
工程师建议顺序通读,每章旁边打开源码,边读边探索。急性子直接翻到第 16 章,30 分钟内创建你的第一个 Skill。
源码与约定
本书基于 OpenClaw 2026.3.14 版本。核心架构模式演化缓慢——即使代码持续迭代,书中绝大多数内容仍然适用。
所有代码示例均从源码中提取,标注对应文件路径。部分代码为可读性做了适度简化,但核心逻辑与设计意图始终忠实保留。
配套资源
- 源码仓库:github.com/nicepkg/openclaw — 本书基于的 OpenClaw 源码
- 勘误与反馈:github.com/yangyitao100/openclaw-book-errata — 提交勘误、反馈建议、与其他读者交流
致谢
最深的谢意,献给 Mario Zechner 和所有 OpenClaw 贡献者。本书中剖析的每一个设计决策,都凝结着一线工程师在真实约束下解决真实问题的智慧。没有他们写下的那些代码,就没有这本书要讲的故事。
感谢 TypeScript、Node.js 和整个开源生态。OpenClaw 站在巨人的肩膀上——从 V8 引擎到 npm 生态,从 Playwright 到无数中间件,每一层基础设施都是无数开发者无偿贡献的结晶。本书的存在,本身就是开源精神的一次传递。
感谢广泛的 AI Agent 社区。书中的框架对比建立在对每个项目的尊重与真诚学习之上。没有哪个框架放之四海皆"更好"——每一个都代表着面向不同受众、在不同维度上的精心权衡。LangChain 的灵活、AutoGPT 的勇气、CrewAI 的直觉、Dify 的亲和——它们共同绘制着 Agent 技术的全景。
感谢我的家人。写书的无数个深夜,是他们的理解与支持让我能够心无旁骛地沉浸在源码与架构的世界里。
感谢你,读者。在短视频与碎片信息的时代,选择一本源码级技术书籍,本身就是一种价值声明——你相信深度理解的力量,相信慢功夫终究会带来快回报。你翻开这本书的那一刻,就已经和我站在了同一边。
我们正处于 AI Agent 技术从原型迈向生产系统的关键拐点。回望历史,2024–2026 或许会被铭记为 Agent 的"UNIX 时刻"——正如 1970 年代 UNIX 确立了操作系统的基础范式,今天的 Agent 架构模式也将在这一时期成型,影响未来数十年的软件形态。
好的代码会被重写,好的架构会被传承,好的设计思想永不过时。
这本书不教你调 API——它教你设计 API 背后的系统。
这本书献给每一个在深夜读源码的人。
杨艺韬 2026 年春,北京