大型語言模型 (LLM) 的出現無疑是人工智慧領域的里程碑,但其強大的語言能力卻被困在一個無形的「數位牢籠」中。要理解 AI 代理 (Agent) 的真正價值,我們必須先認識到 LLM 本身的兩大內在侷限。本文將深入剖析這些侷限,並闡述 AI 代理是如何透過其獨特的架構,打破這個牢籠,實現從被動的「應答者」到主動的「問題解決者」的根本轉變。

一、大型語言模型的「數位牢籠」

儘管 LLM 表現驚人,但它們存在兩個無法自行克服的核心限制:

  1. 知識靜態 (Static Knowledge): LLM 的知識完全來自於其訓練資料,並在訓練完成的那一刻被「凍結」。它無法得知任何訓練截止日期之後發生的事件、新聞或新知識。
  2. 能力封閉 (Incapability of Action): LLM 是一個純粹的數位大腦,它無法與外部世界進行任何實際的互動。它不能查詢資料庫、瀏覽網頁、發送電子郵件,或執行任何會改變外部世界狀態的「行動」。

正是為了解決這兩大限制,AI 代理的架構應運而生。

二、AI 代理的誕生:核心架構

一個 AI 代理系統透過引入兩個關鍵元件——工具 (Tools)協調層 (Orchestration Layer)——來為作為「大腦」的 LLM 賦能。

  • 模型 (大腦): 代理的核心,負責推理、規劃和決策。

  • 工具 (手腳): 賦予代理「感知」和「行動」的能力。這可以是一個簡單的 API 呼叫、一個資料庫查詢工具,或是一個複雜的 RAG (檢索增強生成) 系統。

  • 協調層 (神經系統): 代理的執行引擎,負責驅動一個「觀察-思考-行動」的決策迴圈,將模型、工具和使用者輸入串聯起來。

    caption=“圖表一:AI 代理核心架構。此組件圖展示了 AI 代理的三大核心元件及其相互關係,協調層作為中樞,連接模型的大腦與工具的手腳。” alt=“一個展示 AI 代理核心架構的組件圖。AI 代理包含協調層、模型(LLM)和工具集。協調層與模型互動進行決策,並驅動工具集執行動作,工具的結果會回傳給協調層。”

PlantUML 圖表

三、代理如何「思考」:認知框架

協調層並非隨機運作,而是遵循特定的認知框架 (Cognitive Framework) 來進行思考和規劃。其中,ReAct 是最基礎也最重要的一種。

ReAct 框架:思考與行動的結合

ReAct (Reasoning and Acting) 框架將 LLM 的推理能力與行動能力相結合,讓代理能夠在一個「觀察 -> 思考 -> 行動」的迴圈中,逐步地、迭代地解決複雜問題。

caption="圖表二:ReAct 框架決策迴圈。此活動圖詳細描繪了 ReAct 框架的決策迴圈,展現了代理如何透過迭代來逼近最終目標。"
alt="一個展示 ReAct 框架決策迴圈的活動圖。流程從觀察開始,接著進行思考,然後採取行動。如果任務未完成,行動的結果會成為新的觀察,進入下一個迴圈;如果任務完成,則生成最終答案。"
PlantUML 圖表

ReAct 的強大之處在於其漸進式方法。代理不需要一次性規劃出所有步驟,而是在每一步都能根據新的觀察結果,動態地調整其後續策略。

除了 ReAct,還有其他增強「思考」環節的框架:

  • 思維鏈 (Chain-of-Thought, CoT): 引導模型生成詳細的、一步步的推理過程,以處理需要多步邏輯的複雜問題。
  • 思維樹 (Tree-of-Thoughts, ToT): CoT 的擴展,允許模型同時探索多條不同的推理路徑,並從中選擇最佳方案,適用於需要進行策略規劃的任務。

四、代理與模型的本質區別

綜上所述,AI 代理不僅僅是一個更聰明的模型,它是一個全新的系統架構。

特性模型 (Model)代理 (Agent)
知識範圍靜態的,侷限於訓練資料動態的,可透過工具擴展至整個外部世界
互動模式被動的,回應單次查詢主動的,進行多輪推理與行動
核心能力語言生成與理解問題解決與任務執行
決策機制依賴外部提示指導具備內建的認知架構與決策迴圈

簡單來說,模型是被動的推理工具,而代理是主動的問題解決者。這種從被動生成到主動執行的轉變,正是 AI 代理技術的核心價值所在,它真正打破了傳統語言模型的侷限,為解決真實世界的複雜問題開啟了全新的可能性。