AI 代理的實戰：整合行為樹與大模型語言

在構建自主 AI 代理系統時，選擇合適的控制機制至關重要。經過多年的實際開發經驗，我發現**行為樹（Behavior Trees）**是目前最具潛力的框架選擇。行為樹最初源於遊戲開發領域，但其優秀的可擴充套件性與模組化特性，使其成為 AI 代理開發的理想選擇，特別是當與大型語言模型（LLM）結合時。

為何行為樹是 AI 代理的理想選擇？

相較於有限狀態機（FSM）或黑板協作模式，行為樹在模組化、可擴充套件性、靈活性和可除錯性方面具有顯著優勢。它能夠將複雜的決策邏輯分解為可重用的元件，並以清晰的層次結構組織起來。

行為樹的核心元件

一個行為樹由四種基本節點型別構成：

序列 (Sequence)：按順序執行其子節點，直到一個失敗或全部成功。類似於邏輯「與」。
選擇器 (Selector)：按順序嘗試執行其子節點，直到一個成功。類似於邏輯「或」。
條件 (Condition)：檢查某個條件是否為真，回傳成功或失敗。
動作 (Action)：執行具體的操作，是行為樹的「葉節點」。

caption=“圖表一：行為樹基本架構圖。此圖展示了行為樹的基本元件及其層次結構。” alt=“一個展示行為樹基本架構的圖表。根節點下可以有序列節點或選擇器節點，這些節點下再包含條件節點和動作節點。”

行為樹基本架構

結合 LLM：賦予行為樹智慧

將 LLM 與行為樹結合，可以極大地增強 AI 代理的能力。LLM 可以動態生成行為樹節點、評估複雜的自然語言條件，或執行創造性的行動。

LLM 增強的行為樹節點

動態節點生成：LLM 可以根據高層次的任務描述，動態生成一個完整的行為樹結構。

def generate_behavior_tree_for_task(task_description):
    prompt = f"為以下任務建立一個行為樹結構: {task_description}。回傳JSON格式。"
    response = llm_call(prompt)
    tree_structure = json.loads(response)
    return build_tree_from_structure(tree_structure)

LLM 條件節點：讓行為樹能夠評估基於自然語言的複雜條件。

class LLMConditionNode:
    def execute(self, context):
        prompt = f"根據上下文 '{context}'，判斷條件 '{self.condition}' 是否成立？只回答 'true' 或 'false'。"
        response = llm_call(prompt).strip().lower()
        return "success" if response == "true" else "failure"

LLM 動作節點：執行需要創造力或複雜推理的行動，如內容生成。

class LLMActionNode:
    def execute(self, context):
        prompt = f"執行行動 '{self.action}'，使用上下文 '{context}'。"
        result = llm_call(prompt)
        return "success", result

實戰：使用行為樹解決編碼挑戰

讓我們透過一個具體的編碼挑戰——「種植草坪」，來展示如何設計和實作一個由行為樹驅動的 AI 代理。

挑戰描述：給定一個代表田地的矩陣（包含岩石 ‘x’ 和土地 ‘o’），以及一個起始坐標 (x, y)，模擬草地 ‘+’ 從該點開始向四個方向生長，直到遇到岩石邊界。

使用倒推法則設計行為樹

在設計複雜行為樹時，我常用倒推法則（Back Chaining）：從最終目標開始，反向推導所需的步驟和條件。

最終目標：成功解決編碼挑戰並驗證方案。
必要行動：
- 驗證最終解決方案 (Verifier)
- 評估並修正程式碼 (Judge)
- 生成初始解決方案 (Hacker)
構建行為樹：將這些行動組織成一個序列。

caption=“圖表二：編碼挑戰解決流程圖。此圖展示了使用行為樹解決編碼挑戰的完整流程。” alt=“一個展示使用行為樹解決編碼挑戰流程的圖表。流程是一個序列，依次包含 Hacker（生成方案）、Judge（評估修正）和 Verifier（最終驗證）三個動作節點。”

編碼挑戰解決流程 (行為樹)

Python 實作 (`py_trees`)

我們可以使用 py_trees 函式庫來實作這個行為樹。每個角色（Hacker, Judge, Verifier）都可以被封裝成一個動作節點，並由一個序列節點按順序串聯起來。

import py_trees

# 假設 create_assistant_action 是一個封裝了 LLM 呼叫的函式
# ...

def create_coding_challenge_tree(challenge, test_cases):
    root = py_trees.composites.Sequence("解決編碼挑戰", memory=True)

    # 1. Hacker 節點：生成初始程式碼
    hacker_action = create_assistant_action(
        action_name="Hacker",
        assistant_instructions=f"解決挑戰 '{challenge}'，並將程式碼儲存到 solution.py"
    )
    root.add_child(hacker_action)

    # 2. Judge 節點：評估與測試
    judge_action = create_assistant_action(
        action_name="Judge",
        assistant_instructions=f"評估 solution.py，並用測試案例 '{test_cases}' 進行測試。若通過，儲存為 judged_solution.py"
    )
    root.add_child(judge_action)

    # 3. Verifier 節點：最終驗證
    verifier_condition = create_assistant_condition(
        condition_name="Verifier",
        assistant_instructions="驗證 judged_solution.py 是否完全正確。回傳 SUCCESS 或 FAILURE。"
    )
    root.add_child(verifier_condition)

    return py_trees.trees.BehaviourTree(root)

這個實作清晰地將問題解決流程對映到行為樹結構中，每個節點職責分明，易於理解、測試和擴充。

結論

行為樹為構建自主 AI 代理系統提供了一個成熟、強大且靈活的控制框架。當與大型語言模型（LLM）的能力相結合時，它能夠驅動 AI 代理執行複雜、多步驟的任務，並根據環境和條件動態調整其行為。從遊戲 AI 到機器人控制，再到我們探討的自主助理，行為樹都證明了其作為核心決策機制的價值。對於任何希望開發高階 AI 代理的開發者來說，掌握行為樹技術將是一項寶貴的技能。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。