Agentの動作原理

Agentの構造的特性を理解するには、まずその技術的基盤を理解する必要がある。本節では4つの中核概念を紹介する。大規模言語モデル、Context Window、Agentic Loop、そしてセッションモデルである。

大規模言語モデル:全入力内容に基づく確率的生成

AI Agentの中核には大規模言語モデル(LLM)がある。LLMの動作は一文で要約できる。すべての入力内容が与えられたとき、最も確率の高い次のトークンを一つずつ生成する。

この処理の鍵はAttentionメカニズムにある。トークンが生成されるたびに、モデルはすべての入力内容を振り返り、各部分の関連性重みを計算し、その情報を統合して判断を下す。これは2つのことを意味する。第一に、出力は完全に入力によって決定される。同じ入力は大多数の場合、同じ出力を生成する。第二に、入力内容が増えると、情報同士がAttentionを奪い合う。重要なビジネスルールが大量のコンテキストに埋もれ、出力への影響力が希釈される可能性がある。

これが、長いコンテキストでAgentが「忘れっぽく」なる技術的根本原因である。情報が多ければ多いほど、各情報に割り当てられるAttentionはより分散する。

Context Window:Agentの作業記憶のすべて

Context Windowとは、LLMが1回のやり取りで処理できる情報の総量である。システム指示、ユーザー入力、会話履歴、コードファイル、ツール呼び出し結果のすべてが単一のトークン列に連結され、モデルに入力される。

このウィンドウには厳格な上限がある。上限を超える情報は切り捨てられ、モデルにとっては単に存在しない。さらに重要なことに、実効容量は公称容量よりも大幅に小さい。研究によると、トークン上限内であっても、ウィンドウの中間部分にある情報の想起率は、冒頭と末尾に比べて著しく低い。公称128Kトークンのウィンドウでも、実効的に活用できるのはその半分程度かもしれない。

ウィンドウの外にあるものは、Agentにとって、存在したことがないものである。

Agentic Loop:認知-思考-行動のサイクル

単体のLLMができることは1つだけ、テキストを受け取りテキストを出力することである。Agentはその上に外部世界との相互作用能力を加え、ループを形成する。指示を受け取り、次の行動を推論し、ツールを呼び出し(ファイルの読み取り、コマンドの実行、APIの呼び出し)、ツールが返した結果を観察し、再び推論し、再び行動する。このループはタスクが完了するか終了条件に達するまで継続する。

各ループの反復結果はContext Windowに追加される。これは、反復回数が増えるにつれてウィンドウ内のコンテンツが増大することを意味する。初期の推論や判断は徐々にウィンドウの遠い端に押しやられ、Attentionの重みが低下していく。反復5で行ったアーキテクチャ上の判断が、反復50では事実上忘れられているかもしれない。Agentは同一セッション内で自己矛盾を起こしうる。前半で採用した設計パターンが、後半で暗黙のうちに放棄されることがある。

セッションとインスタンス

Agentはセッション単位で動作する。セッションはユーザーが指示を出した時点で開始し、タスクが完了するかセッションが閉じられた時点で終了する。セッション終了後、Context Window内のすべての情報はクリアされる。次のセッションは白紙のコンテキストから始まる。

同時に、Agentは容易に並列化できる。2番目、10番目、100番目のAgentインスタンスを起動するコストはほぼゼロに近い。これは人間のチームとは対照的である。人間のチームメンバーを1人追加するだけで、採用・育成・調整コストが非線形に増大する。

results matching ""

    No results matching ""