Agent 是怎么工作的

要理解 Agent 的结构性特征,需要先理解它的技术基础。本节介绍四个核心概念:大语言模型、上下文窗口、Agentic Loop 和会话模型。

大语言模型:基于所有输入内容的概率生成

AI Agent 的核心是大语言模型(LLM)。LLM 的工作方式可以用一句话概括:给定所有输入内容,逐个生成最可能的下一个 token。

这个过程的关键在 attention 机制。每生成一个 token 时,模型会回顾所有输入内容,计算每个部分的相关性权重,然后综合这些信息做出决策。这意味着两件事。第一,输出完全由输入决定。同样的输入在绝大多数情况下产生同样的输出。第二,当输入内容变多,信息之间会相互竞争注意力。一段关键的业务规则可能被淹没在大量的上下文信息中,导致它对输出的影响被稀释。

这就是 Agent 在长上下文中"丢三落四"的技术根源:信息量越大,每条信息获得的注意力越分散。

上下文窗口:Agent 的全部工作记忆

上下文窗口是 LLM 单次交互中能够处理的全部信息。它包括系统指令、用户输入、历史对话、代码文件、工具调用的结果,所有内容都被拼接为一个 token 序列送入模型。

窗口有硬上限。超出这个上限的信息会被截断,对模型而言完全不存在。更重要的是,有效容量远小于标称容量。研究表明,即使在 token 限制之内,模型在窗口中段的信息召回率显著低于首尾两端。标称 128K token 的窗口,有效利用的部分可能只有一半。

窗口之外的一切信息,对 Agent 而言等于从未存在。

Agentic Loop:感知-思考-行动的循环

单独的 LLM 只能做一件事:输入文本,输出文本。Agent 在此基础上增加了与外部世界交互的能力,形成一个循环:接收指令,推理下一步行动,调用工具(读文件、执行命令、调 API),观察工具返回的结果,再次推理,再次行动。这个循环持续进行,直到任务完成或达到终止条件。

每次循环的结果都被追加到上下文窗口中。这意味着随着循环次数增加,窗口中的内容越来越多。早期的推理和决策逐渐被推向窗口的远端,获得的注意力权重下降。一个在第 5 轮循环中做出的架构决策,到第 50 轮时可能已经被有效遗忘。Agent 会在同一个会话中前后矛盾,前半段采用的设计模式在后半段被无声地放弃。

会话与实例

Agent 的工作以会话为单位。一个会话从用户发起指令开始,到任务完成或会话关闭结束。会话结束后,上下文窗口中的所有信息被清空。下一次会话从一个空白的上下文重新开始。

与此同时,Agent 可以被轻松地并行实例化。启动第二个、第十个、第一百个 Agent 实例的成本趋近于零。这与人类团队形成鲜明对比:增加一个人类团队成员伴随着招聘、培训和沟通协调成本的非线性增长。

results matching ""

    No results matching ""