Harness Engineering 手册：百倍生产力的可靠软件交付

如何组织 AI 与人类完成可靠的软件交付

AgentsZone 社区集体创作 | 编者: 付权智，马驰

⚠️ 早期草稿 本书正处于架构验证阶段。引言和目录结构已基本成型，欢迎对整体框架提出反馈。各章节内容为 AI 辅助生成的初稿，缺乏细节、实例和可读性打磨，将在后续版本中由实践贡献者逐章补充完善。

Agent Coding：1.5x 还是 100x

过去两年，AI 编码工具的能力边界在持续扩展。从函数级补全到模块级生成，再到完整项目的构建，每一代模型都在刷新能处理的问题上限。开发者的体感也在同步提升：写代码确实更快了，自己变成了 1.5 倍、2 倍工程师。

但当团队真正回顾交付数据时，一个令人困惑的现象浮现了。PR 数量上升，review 时间变长，bug 率走高。模型变强了，工具变好了，体感更快了，综合生产力的提升却远没有跟上。

与此同时，另一批人用同样的工具交出了完全不同的成绩。PingCAP 的 CTO 黄东旭用 AI 将 TiDB 的 PostgreSQL 兼容层重写为接近生产水平的 Rust 代码。Pigsty 创始人冯若航一个人用 AI 维护着集成了 460 多个扩展的企业级 PostgreSQL 发行版，日常同时调度十个 Agent 并行推进。他们的生产力提升以数十倍计，而且产出的是上了生产、经过验证的代码。

两边都是真实的体感。你觉得自己只能 1.5 倍，是对的。他们做到了几十倍并且上了生产，也是对的。同样的模型，同样的工具，差距在哪里？AgentsZone 社区与上百位开发者的实践交流给出了清晰的答案。本书系统性地总结了从 1.5x 到 100x 的方法论和工程实践。

如果你是编程小白或产品人，已经用 Vibe Coding 做出了能跑的产品，现在开始思考怎么迭代、怎么让它在生产环境中稳定运行，卷一关于规约和验证的内容会直接帮到你。如果你是程序员，正在经历从"自己写代码"到"指挥 Agent 写代码"的转型，全书的生产力阶梯就是你的转型路径：从管好一个任务，到管好一群 Agent，到重新定义自己在团队中的角色。如果你是企业的技术负责人，正在推动团队的 AI-native 转型，卷三关于组织架构的讨论会直接相关。你可以从匹配自己当前阶段的章节读起。

差异来自制度

回到那个核心问题：1.5x 和 100x 之间的差距到底在哪？

主流讨论集中在 prompt 技巧、工具选择和模型能力对比。这些有价值，但停留在操作层面，无法解释同一个工具在不同团队手里产生截然不同的结果。

我们的观察是：差异来自制度。100 倍生产力的团队，都建立了与 AI Agent 特征匹配的工程制度。1 倍生产力的团队，还在用为人类执行者设计的旧制度指挥 Agent。

软件工程六十年积累的制度体系，代码审查、测试策略、模块化、团队分工，是围绕人类执行者的认知特征设计的。人类程序员用常识补全模糊的需求，对高风险操作本能地放慢节奏，在项目中积累隐性知识并通过协作自然传递。这些能力一直活在执行者身上，流程文档无需记载，因为执行者自带。

当执行者从人类变为 AI Agent，这些隐含的前提全部失效。Agent 忠实执行输入，模糊之处变成随机决策。它的有效处理容量有硬上限，任务规模一大，质量断崖式下降。它的记忆止于会话边界，每次都是新员工的第一天。它的注意力止于当前指令，修改一行文案和修改支付核心逻辑在它看来完全一样。与此同时，它的产出速度是人类的 10 到 100 倍，放大了以上每一个问题的影响。

执行者变了，制度必须跟着变。这是本书的核心论点。第一章将详细分析这五个结构性特征及其导致的工程挑战。

为什么 Vibe Coding 和现有框架都不够

理解了这个论点之后，可以看清当前各种方法的局限。

Vibe Coding 是起点：凭感觉写 prompt，让 AI 生成代码，能跑就行。对于一次性脚本和快速原型，它确实高效。但 Vibe Coding 是开环控制：发出指令，接受结果，凭主观感觉判断好坏。没有规约定义"对"是什么，没有自动化验证检查产出是否符合意图。开环系统在小规模下勉强可用，一旦项目需要长期维护和团队协作，随机性就不可接受了。

一部分团队意识到了这个问题，开始尝试用软件工程的方法组织 AI 开发。bmad、OpenSpec、SpecKit 等框架应运而生，给 AI Agent 提供结构化的规约，用工程流程约束生成过程。方向是对的，比 Vibe Coding 前进了一大步。

但这些框架的关注点集中在代码生成阶段。软件工程几十年来的核心教训恰恰在另一面：代码从发布那一刻起就成为债务。生成是软件生命周期中最便宜的环节。设计、验证、调试、部署、维护，这些环节的成本总和远超编码本身。一个软件系统 80% 的生命周期花在发布之后。只关注生成阶段的方法，在优化整个链条中成本最低的一环。

更根本的是，这些框架仍然假设了人类执行者的存在。它们的流程设计、质量保障机制和协作模式，背后仍然依赖人类自带的常识、经验和判断力。Agent 作为执行者的结构性差异，在这些框架中没有被正视。

两个基本原则

面对这些挑战，本书的应对建立在两个工程原则之上。

闭环。 能够大规模使用 Agent 的团队，都建立了某种形式的闭环控制：明确的规约定义输入，自动化的验证检查输出，偏差被即时发现并纠正。闭环控制是工程学的基本原则。恒温器、自动驾驶、工业流水线，所有需要可靠运行的系统都依赖反馈回路。在人类执行环境下，程序员本身就是反馈环的一部分，他们会自我检查、自我纠正。Agent 不会。反馈环必须被显式地工程化到系统中。Vibe Coding 的本质问题就是开环控制。

演进。 软件必须被持续维护、迭代、适配新需求。Agent 驱动的开发放大了这个挑战：Agent 会忠实复制代码库中已有的模式，包括坏的模式。合并后的代码成为后续生成的参考集。如果没有持续改进的机制，系统会自我强化地滑向退化。规约、测试、Skill 卡片、组织流程，每一层都需要持续演进。

这两个原则贯穿本书的每一章。闭环保证每一步可靠，演进保证系统越来越好。

路线图与目录

全书按生产力阶梯展开。第一章分析 Agent 的结构性特征和工程挑战，建立全书的理论基础。之后的内容分为三卷，每一卷对应一个生产力跃迁的阶段。

卷一：可靠的 Agent 编程（1→10x）。 从 Vibe Coding 到工程化的第一步。你坐在 Agent 前面，一问一答，但产出从随机变为可靠。第二章通过规约将模糊变为确定，第三章通过自动化验证闭合反馈回路。掌握这两章，你就从凭感觉写 prompt 进入了有规约、有验证、有闭环的工程模式，生产力提升到过去的数倍。

卷二：规模化 Agent 开发（10→100x）。 有了卷一的规约和验证体系，你才有可能放手让 Agent 自主执行。没有规约的自主执行就是 YOLO mode，灾难是确定的。第四章解决长期执行中的上下文崩塌、跨会话记忆，以及 Session 这一基本执行单元的工程化问题，让一个 Agent 能跨会话、跨天地持续推进项目。第五章在此基础上进一步扩展到多 Agent 并行，解决隔离与集成问题。你从 Agent 的实时对话伙伴变成了任务的设计者和验收者，生产力再提升一个数量级。

卷三：治理百倍速的组织。 个人生产力的提升终有上限。当多个人类需要协作来指挥各自的 Agent 军团，问题超越了技术层面，进入组织设计领域。卷一卷二建立的工程实践（规约、验证、分解、平台）是组织级协作的基础设施，没有这些基础设施，团队级的 Agent 协作无从谈起。第六章分析传统团队结构为什么失效，探索新的角色分工和治理模式。第七章讨论 Agent 时代的组织资产：什么是新的护城河。

Harness Engineering 手册

Harness Engineering 手册：百倍生产力的可靠软件交付

Agent Coding：1.5x 还是 100x

差异来自制度

为什么 Vibe Coding 和现有框架都不够

两个基本原则

路线图与目录

卷一：可靠的 Agent 编程 (1→10x)

卷二：规模化 Agent 开发 (10→100x)

卷三：治理百倍速的组织

results matching ""

No results matching ""