Agent 是怎么工作的

要理解 Agent 的结构性特征，需要先理解它的技术基础。本节介绍四个核心概念：大语言模型、上下文窗口、Agentic Loop 和会话模型。

大语言模型：基于所有输入内容的概率生成

AI Agent 的核心是大语言模型（LLM）。LLM 的工作方式可以用一句话概括：给定所有输入内容，逐个生成最可能的下一个 token。

这个过程的关键在 attention 机制。每生成一个 token 时，模型会回顾所有输入内容，计算每个部分的相关性权重，然后综合这些信息做出决策。这意味着两件事。第一，输出完全由输入决定。同样的输入在绝大多数情况下产生同样的输出。第二，当输入内容变多，信息之间会相互竞争注意力。一段关键的业务规则可能被淹没在大量的上下文信息中，导致它对输出的影响被稀释。

这就是 Agent 在长上下文中"丢三落四"的技术根源：信息量越大，每条信息获得的注意力越分散。

上下文窗口：Agent 的全部工作记忆

上下文窗口是 LLM 单次交互中能够处理的全部信息。它包括系统指令、用户输入、历史对话、代码文件、工具调用的结果，所有内容都被拼接为一个 token 序列送入模型。

窗口有硬上限。超出这个上限的信息会被截断，对模型而言完全不存在。更重要的是，有效容量远小于标称容量。研究表明，即使在 token 限制之内，模型在窗口中段的信息召回率显著低于首尾两端。标称 128K token 的窗口，有效利用的部分可能只有一半。

窗口之外的一切信息，对 Agent 而言等于从未存在。

Agentic Loop：感知-思考-行动的循环

单独的 LLM 只能做一件事：输入文本，输出文本。Agent 在此基础上增加了与外部世界交互的能力，形成一个循环：接收指令，推理下一步行动，调用工具（读文件、执行命令、调 API），观察工具返回的结果，再次推理，再次行动。这个循环持续进行，直到任务完成或达到终止条件。

每次循环的结果都被追加到上下文窗口中。这意味着随着循环次数增加，窗口中的内容越来越多。早期的推理和决策逐渐被推向窗口的远端，获得的注意力权重下降。一个在第 5 轮循环中做出的架构决策，到第 50 轮时可能已经被有效遗忘。Agent 会在同一个会话中前后矛盾，前半段采用的设计模式在后半段被无声地放弃。

会话与实例

Agent 的工作以会话为单位。一个会话从用户发起指令开始，到任务完成或会话关闭结束。会话结束后，上下文窗口中的所有信息被清空。下一次会话从一个空白的上下文重新开始。

与此同时，Agent 可以被轻松地并行实例化。启动第二个、第十个、第一百个 Agent 实例的成本趋近于零。这与人类团队形成鲜明对比：增加一个人类团队成员伴随着招聘、培训和沟通协调成本的非线性增长。

Agent 是怎么工作的

Agent 是怎么工作的

大语言模型：基于所有输入内容的概率生成

上下文窗口：Agent 的全部工作记忆

Agentic Loop：感知-思考-行动的循环

会话与实例

results matching ""

No results matching ""