AI的结构性特征

基于以上技术基础,我们可以识别出 AI Agent 作为软件开发执行者的五个结构性特征。每个特征都会导致具体的工程挑战,而这些挑战在人类执行环境下要么被自然地化解,要么根本不会出现。

忠实执行

Agent 的行为模式是忠实于输入。给定清晰完整的规约,它能高质量地完成实现。给定模糊或有缺陷的规约,它同样忠实地将模糊和缺陷编译为代码。Agent 的行为更接近编译器:输入的质量决定输出的上限。

模糊点变成随机决策。 人类程序员遇到模糊需求时,会调用个人经验和业务常识来填补空白,或者主动找产品经理澄清。Agent 面对同样的模糊,直接做出一个选择继续执行。这个选择可能正确,也可能偏离意图,而你在审查产出之前无法得知。在人类执行环境下,需求的适度模糊是可接受的,因为执行者有能力用常识补全。当执行者忠实于输入时,规约中的每一个模糊点都变成输出中的一个不确定性来源。

未提供的知识等于不存在。 团队中存在大量未文档化的隐性知识:为什么某个模块使用了特定的设计模式,为什么某个 API 的错误处理采用了特殊策略,某个客户的数据格式有哪些已知异常。人类程序员通过日常协作逐步吸收这些知识。Agent 只能依赖显式提供的信息。如果一条业务规则没有写进输入上下文,它在 Agent 的世界中就从未存在。产出的代码会在功能上正确地忽略这条规则。

有限处理容量

Agent 在单次交互中能有效处理的信息量存在硬上限。当任务涉及过多文件、过长的依赖链或过复杂的业务逻辑,产出质量在某个阈值之后断崖式恶化。

任务规模与产出质量负相关。 这与人类的认知负荷问题有相似之处,但存在一个关键区别。人类程序员拥有对整个系统的持久心智模型,能在局部工作时维持全局一致性。Agent 每次交互都在有限的窗口内重新构建理解。当一个任务需要同时考虑数据库 schema、API 契约、前端状态管理和权限模型时,人类可以依赖长期积累的系统理解来保持一致性。Agent 必须在当前窗口内装下所有相关信息,装不下的部分就会被忽略。

长链推理中早期决策被遗忘。 在同一个会话内,如果 Agentic Loop 的循环次数较多,早期的设计决策会随着新上下文的加入被逐渐挤出有效处理窗口。前半段定义的接口规范在后半段的实现中被悄然改变。前半段选定的错误处理策略在后半段被另一种方式替代。这个过程是无声的,Agent 本身意识不到自己在自相矛盾。

无记忆积累

Agent 在会话边界丧失所有上下文。上一次会话中积累的项目理解、踩过的坑、做出的设计决策,在新会话中完全归零。

组织知识无法自然沉淀和演化。 人类团队在一个项目上工作越久,积累的隐性知识越丰富:架构决策的历史原因、各模块的脆弱点、特定业务场景的处理惯例。这些知识大多从未被文档化,通过日常协作自然传递和演化。Agent 驱动的团队缺乏这个自然的积累过程。第一百次会话和第一次会话的执行水平相同。好的设计决策和坏的设计决策以同样的概率出现。

更深层的问题在于:即使知识被外化为文档,文档本身也需要持续维护。人脑中的知识随项目演化自动更新,文档中的知识如果没有显式维护就会腐烂,逐渐变成误导性的信息源。知识的外化只是问题的一半,知识的演进机制才是完整的解法。

高吞吐零边际成本

Agent 的代码产出速度是人类的 10 到 100 倍,且可以同时实例化多个 Agent 并行处理独立任务。增加一个 Agent 实例的边际成本趋近于零。

这个特征在五个中扮演特殊角色:它既产生自身的挑战,也放大其他四个特征的影响。忠实执行在人类速度下是可管理的问题,在百倍速度下变成系统性风险。一个模糊的规约在人类执行时可能产生两三个需要修正的偏差,在 Agent 执行时可能在一个小时内产出几十个偏差各异的实现。无记忆在每天两三个会话时是小不便,在每天几十个会话时是严重的知识断裂。

产出速度超过人类质量保障带宽。 传统软件工程中,人类执行速度为所有下游活动提供了天然的时间缓冲。代码审查、架构评估、集成测试的设计节奏与人类产出速度匹配。当产出速度提升两个数量级,这个匹配关系被打破。审查从逐行 review 退化为抽样检查,偏差在被人类发现之前已经被后续几十次提交固化。人类的慢速产出本身就是一种错误遏制机制。高吞吐移除了这道天然屏障。

无后果感知

Agent 对其产出的长期后果没有感知。它优化的是当前指令的满足度,对代码的长期可维护性没有内在动机。

缺乏内在质量驱动力。 人类程序员对代码质量有内在的关注动力。代码的可读性、架构的优雅性、技术债的控制,这些关注部分来自专业素养,部分来自"三个月后要维护这段代码"的预期。Agent 缺乏这种内在驱动。它会忠实复制代码库中已有的模式,包括坏的模式。合并后的代码成为后续生成的参考集,形成自强化的质量下降循环。技术债的积累速度与产出速度正相关。人类团队年度级别积累的技术债,Agent 驱动的团队可能在数周内达到同等规模。系统中没有任何内在力量推动重构。等人类意识到需要重构时,系统规模可能已经使重构成本极高。

不区分风险等级。 Agent 以同等速度和同等注意力处理所有任务。修改一段展示文案和修改支付扣款逻辑在执行层面完全一样。人类程序员面对高风险操作时会本能地放慢节奏、增加确认、寻求第二意见。Agent 缺乏这种内在的风险减速机制。在高吞吐条件下,大量任务被同速执行,高风险操作混在其中,没有任何内在信号提示需要额外小心。

results matching ""

    No results matching ""