Harness Engineering 手册:百倍生产力的可靠软件交付

如何组织 AI 与人类完成可靠的软件交付

AgentsZone 社区集体创作 | 编者: 付权智,马驰

⚠️ 早期草稿 本书正处于架构验证阶段。引言和目录结构已基本成型,欢迎对整体框架提出反馈。各章节内容为 AI 辅助生成的初稿,缺乏细节、实例和可读性打磨,将在后续版本中由实践贡献者逐章补充完善。

Agent Coding:1.5x 还是 100x

过去两年,AI 编码工具的能力边界在持续扩展。从函数级补全到模块级生成,再到完整项目的构建,每一代模型都在刷新能处理的问题上限。开发者的体感也在同步提升:写代码确实更快了,自己变成了 1.5 倍、2 倍工程师。

但当团队真正回顾交付数据时,一个令人困惑的现象浮现了。PR 数量上升,review 时间变长,bug 率走高。模型变强了,工具变好了,体感更快了,综合生产力的提升却远没有跟上。

与此同时,另一批人用同样的工具交出了完全不同的成绩。PingCAP 的 CTO 黄东旭用 AI 将 TiDB 的 PostgreSQL 兼容层重写为接近生产水平的 Rust 代码。Pigsty 创始人冯若航一个人用 AI 维护着集成了 460 多个扩展的企业级 PostgreSQL 发行版,日常同时调度十个 Agent 并行推进。他们的生产力提升以数十倍计,而且产出的是上了生产、经过验证的代码。

两边都是真实的体感。你觉得自己只能 1.5 倍,是对的。他们做到了几十倍并且上了生产,也是对的。同样的模型,同样的工具,差距在哪里?AgentsZone 社区与上百位开发者的实践交流给出了清晰的答案。本书系统性地总结了从 1.5x 到 100x 的方法论和工程实践。

如果你是编程小白或产品人,已经用 Vibe Coding 做出了能跑的产品,现在开始思考怎么迭代、怎么让它在生产环境中稳定运行,卷一关于规约和验证的内容会直接帮到你。如果你是程序员,正在经历从"自己写代码"到"指挥 Agent 写代码"的转型,全书的生产力阶梯就是你的转型路径:从管好一个任务,到管好一群 Agent,到重新定义自己在团队中的角色。如果你是企业的技术负责人,正在推动团队的 AI-native 转型,卷三关于组织架构的讨论会直接相关。你可以从匹配自己当前阶段的章节读起。

差异来自制度

回到那个核心问题:1.5x 和 100x 之间的差距到底在哪?

主流讨论集中在 prompt 技巧、工具选择和模型能力对比。这些有价值,但停留在操作层面,无法解释同一个工具在不同团队手里产生截然不同的结果。

我们的观察是:差异来自制度。100 倍生产力的团队,都建立了与 AI Agent 特征匹配的工程制度。1 倍生产力的团队,还在用为人类执行者设计的旧制度指挥 Agent。

软件工程六十年积累的制度体系,代码审查、测试策略、模块化、团队分工,是围绕人类执行者的认知特征设计的。人类程序员用常识补全模糊的需求,对高风险操作本能地放慢节奏,在项目中积累隐性知识并通过协作自然传递。这些能力一直活在执行者身上,流程文档无需记载,因为执行者自带。

当执行者从人类变为 AI Agent,这些隐含的前提全部失效。Agent 忠实执行输入,模糊之处变成随机决策。它的有效处理容量有硬上限,任务规模一大,质量断崖式下降。它的记忆止于会话边界,每次都是新员工的第一天。它的注意力止于当前指令,修改一行文案和修改支付核心逻辑在它看来完全一样。与此同时,它的产出速度是人类的 10 到 100 倍,放大了以上每一个问题的影响。

执行者变了,制度必须跟着变。这是本书的核心论点。第一章将详细分析这五个结构性特征及其导致的工程挑战。

为什么 Vibe Coding 和现有框架都不够

理解了这个论点之后,可以看清当前各种方法的局限。

Vibe Coding 是起点:凭感觉写 prompt,让 AI 生成代码,能跑就行。对于一次性脚本和快速原型,它确实高效。但 Vibe Coding 是开环控制:发出指令,接受结果,凭主观感觉判断好坏。没有规约定义"对"是什么,没有自动化验证检查产出是否符合意图。开环系统在小规模下勉强可用,一旦项目需要长期维护和团队协作,随机性就不可接受了。

一部分团队意识到了这个问题,开始尝试用软件工程的方法组织 AI 开发。bmad、OpenSpec、SpecKit 等框架应运而生,给 AI Agent 提供结构化的规约,用工程流程约束生成过程。方向是对的,比 Vibe Coding 前进了一大步。

但这些框架的关注点集中在代码生成阶段。软件工程几十年来的核心教训恰恰在另一面:代码从发布那一刻起就成为债务。生成是软件生命周期中最便宜的环节。设计、验证、调试、部署、维护,这些环节的成本总和远超编码本身。一个软件系统 80% 的生命周期花在发布之后。只关注生成阶段的方法,在优化整个链条中成本最低的一环。

更根本的是,这些框架仍然假设了人类执行者的存在。它们的流程设计、质量保障机制和协作模式,背后仍然依赖人类自带的常识、经验和判断力。Agent 作为执行者的结构性差异,在这些框架中没有被正视。

两个基本原则

面对这些挑战,本书的应对建立在两个工程原则之上。

闭环。 能够大规模使用 Agent 的团队,都建立了某种形式的闭环控制:明确的规约定义输入,自动化的验证检查输出,偏差被即时发现并纠正。闭环控制是工程学的基本原则。恒温器、自动驾驶、工业流水线,所有需要可靠运行的系统都依赖反馈回路。在人类执行环境下,程序员本身就是反馈环的一部分,他们会自我检查、自我纠正。Agent 不会。反馈环必须被显式地工程化到系统中。Vibe Coding 的本质问题就是开环控制。

演进。 软件必须被持续维护、迭代、适配新需求。Agent 驱动的开发放大了这个挑战:Agent 会忠实复制代码库中已有的模式,包括坏的模式。合并后的代码成为后续生成的参考集。如果没有持续改进的机制,系统会自我强化地滑向退化。规约、测试、Skill 卡片、组织流程,每一层都需要持续演进。

这两个原则贯穿本书的每一章。闭环保证每一步可靠,演进保证系统越来越好。

路线图与目录

全书按生产力阶梯展开。第一章分析 Agent 的结构性特征和工程挑战,建立全书的理论基础。之后的内容分为三卷,每一卷对应一个生产力跃迁的阶段。

卷一:可靠的 Agent 编程(1→10x)。 从 Vibe Coding 到工程化的第一步。你坐在 Agent 前面,一问一答,但产出从随机变为可靠。第二章通过规约将模糊变为确定,第三章通过自动化验证闭合反馈回路。掌握这两章,你就从凭感觉写 prompt 进入了有规约、有验证、有闭环的工程模式,生产力提升到过去的数倍。

卷二:规模化 Agent 开发(10→100x)。 有了卷一的规约和验证体系,你才有可能放手让 Agent 自主执行。没有规约的自主执行就是 YOLO mode,灾难是确定的。第四章解决长期执行中的上下文崩塌、跨会话记忆,以及 Session 这一基本执行单元的工程化问题,让一个 Agent 能跨会话、跨天地持续推进项目。第五章在此基础上进一步扩展到多 Agent 并行,解决隔离与集成问题。你从 Agent 的实时对话伙伴变成了任务的设计者和验收者,生产力再提升一个数量级。

卷三:治理百倍速的组织。 个人生产力的提升终有上限。当多个人类需要协作来指挥各自的 Agent 军团,问题超越了技术层面,进入组织设计领域。卷一卷二建立的工程实践(规约、验证、分解、平台)是组织级协作的基础设施,没有这些基础设施,团队级的 Agent 协作无从谈起。第六章分析传统团队结构为什么失效,探索新的角色分工和治理模式。第七章讨论 Agent 时代的组织资产:什么是新的护城河。


卷一:可靠的 Agent 编程 (1→10x)

卷二:规模化 Agent 开发 (10→100x)

卷三:治理百倍速的组织


results matching ""

    No results matching ""