提升人工智慧系統觀察性方法

現代人工智慧系統日益複雜，理解其內部運作至關重要。提升觀察性是確保系統可靠性和效能的關鍵。本文深入探討如何提升人工智慧系統的觀察性，包含系統架構設計、關鍵步驟、資料準備、模型建構與評估，以及系統測試和營運階段的具體措施。透過整合監控、日誌記錄、資料血緣追蹤和可解釋性工具，開發者能更有效地掌握系統狀態，及早發現潛在的資料漂移或模型退化，進而提升系統的穩定性和預測準確度。此外，文章也強調了責任追究機制的重要性，透過記錄資料、元件和模型的完整生命週期，確保系統的透明度和可追溯性。

11.3 提升人工智慧系統觀察性的方法

人工智慧系統的觀察性是指能夠深入瞭解系統內部運作的能力，包括模型層、系統層和模型開發及佈署管線層，以及其執行基礎設施。這使得開發人員能夠主動識別潛在的資料/模型/概念漂移，並在使用者受到不利影響之前預測效能退化和事件。

為了達到觀察性，需要兩種不同的方法：記錄系統活動和追蹤資料專案和系統中包含的元件的血統。為了支援責任追究，不僅要記錄資料和元件的血統，還要記錄生成資料模型和元件的人員。監控被設計到架構中，血統在模型構建和系統構建期間被記錄。這兩個元素都必須在營運期間可用。

11.3.1 架構

用於支援觀察性的機制之一是在架構中包含監控器。系統應該透過維護日誌來記錄其活動。常見的日誌記錄做法包括：

日誌級別：對日誌訊息的重要性進行分類別。常見級別包括除錯、資訊、警告、錯誤和嚴重錯誤。
結構化日誌記錄：使用機器可讀的格式，如 JSON。
包含上下文：包括相關細節，如時間戳、使用者 ID、URL 或錯誤程式碼。

資料血統工具可以提供有關用於模型進行預測的資料歷史的洞察。架構應該包括儲存資料的倉函式庫和可以跟蹤其血統的工具的介面。此外，軟體物料清單（SBOM）將提供非 AI 元件的血統。架構應該提供存取 SBOM 的機制。

此外，在下面的章節中，列出了許多與觀察性和監控相關的功能。為了使這些功能可用，它們需要被設計和構建到系統中。DevOps 最佳實踐是將營運人員視為一級利益相關者，這樣做將導致有關日誌記錄、監控等系統屬性的需求。

11.3.2 實作觀察性的關鍵步驟

記錄系統活動：系統應該記錄其活動，包括錯誤、警告和重要事件，以便於追蹤和分析。
追蹤資料專案和元件的血統：系統應該記錄資料專案和元件的來源、歷史和變化，以便於追蹤和分析。
實作監控：系統應該實作監控功能，以便於實時追蹤系統的效能和狀態。
提供介面：系統應該提供介面，以便於存取和分析日誌、資料血統和其他相關資訊。
實作責任追究：系統應該實作責任追究機制，以便於追蹤和分析系統的操作和決策過程。

透過實作這些步驟，人工智慧系統可以提高其觀察性，從而更好地瞭解其內部運作，提高其效能和可靠性，並減少風險和不確定性。

資料準備與模型建構

在建構模型的過程中，資料準備是一個至關重要的步驟。這個步驟涉及使用多種機制，包括資料血緣工具和解釋機制。

資料血緣工具

資料血緣工具是用於追蹤資料在系統中流動的工具。這些工具可以幫助我們瞭解資料從哪裡來，如何被轉換和儲存，以及如何被使用。透過使用資料血緣工具，我們可以更好地瞭解資料的來源和流向，從而提高資料的品質和可靠性。

在資料倉儲中，資料血緣工具可以提供實時的資料血緣資訊，讓我們可以隨時瞭解資料的來源和流向。這些工具可以幫助我們追蹤資料的變化，瞭解資料如何被轉換和儲存，以及如何被使用。

解釋性

解釋性是指模型的預測結果可以被解釋和理解。解釋性是模型評估的一個重要方面，因為它可以幫助我們瞭解模型的預測結果是如何產生的。

有兩種主要的解釋性技術：區域性解釋技術和全域性解釋技術。區域性解釋技術提供了例項基礎的解釋，可以幫助我們瞭解特定的預測結果是如何產生的。全域性解釋技術則提供了模型的整體行為，可以幫助我們瞭解模型的預測結果是如何產生的。

區域性解釋技術包括 Local Interpretable Model-Agnostic Explanations (LIME)和 Shapley Additive exPlanations (SHAP)等。LIME 可以透過建立一個區域性可解釋的模型來解釋黑盒模型的預測結果。SHAP 則可以透過計算每個特徵對預測結果的貢獻來解釋模型的預測結果。

全域性解釋技術包括 Partial Dependence Plots 和 Global Surrogate Models 等。Partial Dependence Plots 可以提供特徵重要性的視覺化，幫助我們瞭解特徵如何影響模型的預測結果。Global Surrogate Models 則可以透過建立一個簡單的模型來解釋複雜模型的預測結果。

模型評估

模型評估是指評估模型的效能和可靠性。模型評估包括了多個方面，包括模型的準確性、精確性、召回率、F1 分數等。

在模型評估中，需要考慮多個因素，包括資料的品質、模型的複雜度、評估指標的選擇等。透過評估模型的效能和可靠性，我們可以更好地瞭解模型的優缺點，從而改進模型的效能和可靠性。

內容解密：

資料血緣工具：用於追蹤資料在系統中流動的工具。
解釋性：指模型的預測結果可以被解釋和理解。
區域性解釋技術：提供了例項基礎的解釋，可以幫助我們瞭解特定的預測結果是如何產生的。
全域性解釋技術：提供了模型的整體行為，可以幫助我們瞭解模型的預測結果是如何產生的。
模型評估：指評估模型的效能和可靠性。

圖表翻譯：

  graph LR
    A[資料準備] --> B[資料血緣工具]
    B --> C[解釋機制]
    C --> D[模型建構]
    D --> E[模型評估]

Partial Dependence Plots 可以提供特徵重要性的視覺化，幫助我們瞭解特徵如何影響模型的預測結果。Global Surrogate Models 則可以透過建立一個簡單的模型來解釋複雜模型的預測結果。

  graph LR
    A[Partial Dependence Plots] --> B[特徵重要性]
    B --> C[視覺化]
    C --> D[模型預測結果]
    D --> E[Global Surrogate Models]

人工智慧模型的透明度與解釋性

人工智慧（AI）模型的複雜性使得其決策過程難以理解。為了簡化這些模型的工作原理，玄貓提出了一種方法，即透過全球性解釋來使其更容易被理解。

有兩種選擇可以用於解釋根據基礎模型的系統的決策過程：「大聲思考」和「默默思考」。這兩種方法都是正在進行的研究的主題。此外，機械可解釋性——在結構層面上瞭解和追蹤模型的內部工作原理——是另一種被探索的方法，以提高這些系統的透明度和可解釋性。

系統構建

系統構建是構建軟體彙總表（SBOM）的階段。在系統構建期間，元件從版本控制系統、模型開發和依賴關係從函式庫中下載。所有這些元素都進入系統的 SBOM 中。記錄 SBOM 的一種方法是將其放入版本登入檔中。將模型版本納入其中，導致了共版本登入檔的概念。

共版本登入檔系統不斷變化。AI 模型和傳統軟體元件都透過更新而演變。追蹤每個元件的具體版本以及瞭解變化對模型行為的影響可能具有挑戰性。與傳統軟體相比，AI 系統具有更複雜的依賴關係，並可能由於其資料驅動的性質而更頻繁地演變。

從 AI 系統的角度來看，知道每個整合元件的版本是關鍵的。從 AI 元件的角度來看，瞭解用於訓練的資料集和引數以及用於評估的資料是重要的。AI 元件和工件的共版本提供了整個 AI 系統生命週期中的端對端起源保證。共版本登入檔跟蹤軟體元件和 AI 工件的共同演變。

系統測試

在系統測試期間，測試整個系統的運作。這包括我們已經提到的元素：

日誌以啟用查詢在各個元件中的跟蹤
存取在模型構建期間建立的資料血緣
存取 SBOM

此外，應該執行涵蓋預期使用案例的系統範圍測試，涉及可觀察性。這些測試可以涉及人機互動，以在操作期間提供互動性。

營運

在營運期間，可透過以下措施增強可觀察性：

監控：根據從基礎設施收集的指標、由玄貓生成的日誌以及預測的不確定性的連續監控
整合可解釋性工具：像 LIME 和 SHAP 這樣的可解釋性技術可以整合到監控儀錶板中，以視覺化特徵重要性、決策路徑、潛在偏差等
獨立監督代理：設計獨立監督代理作為外部系統，觀察和分析根據基礎模型的系統的行為。這些代理可以確保根據基礎模型的系統負責任地行事，並避免生成攻擊性或不想要的內容和操作。如果必要，它們可能會採取措施解決檢測到的問題，例如通知人類或停止特定操作。

  graph TD
    A[開始] --> B[系統構建]
    B --> C[系統測試]
    C --> D[營運]
    D --> E[增強可觀察性]

圖表翻譯：

此圖表示 AI 系統生命週期中的不同階段，從系統構建到營運，並強調了增強可觀察性的重要性。每個階段都與下一個階段相關，展示了 AI 系統發展和維護中的連續性和迭代性。

內容解密：

上述內容闡述了 AI 模型透明度和解釋性的重要性，並提出了共版本登入檔等方法來提高可解釋性。此外，系統測試和營運階段中應用的可觀察性措施可以幫助確保 AI 系統的責任感和安全性。

從系統架構到模型佈署及實際營運的全面檢視顯示，提升人工智慧系統觀察性對於確保系統可靠性、效能表現和可控性至關重要。深入剖析日誌記錄、資料血緣追蹤和監控機制，可以發現這些方法不僅能協助開發者主動識別潛在風險，例如資料/模型/概念漂移，更能預測效能退化和異常事件，從而防患於未然。

多維比較分析顯示，傳統軟體系統的觀察性方案不足以應對 AI 系統的複雜性和動態性。AI 系統的資料驅動特性和模型演變速度，需要更精細的追蹤和分析工具，例如共版本登入檔，以記錄模型和軟體元件的版本演變和相互依存關係。此外，整合 LIME 和 SHAP 等可解釋性技術到監控儀錶板，能提供更深入的模型行為洞察，並協助識別潛在偏差。然而，目前可解釋性技術仍存在一定的侷限性，特別是針對深度學習模型的解釋能力仍有待提升。

玄貓預測，隨著模型複雜度的不斷提高和應用場景的擴充套件，AI 系統的觀察性將成為更重要的研究方向。技術的發展將聚焦於更自動化的監控和異常檢測方法，以及更易於理解和使用的可解釋性工具。同時，獨立監督代理的設計和應用也將日益成熟，為確保 AI 系統的安全性、責任性和可控性提供更強大的保障。

對於企業而言，建構完善的 AI 系統觀察性機制並非一蹴可幾。技術團隊應著重於整合日誌記錄、資料血緣追蹤、監控和可解釋性工具，並將其融入到整個系統生命週期中，才能充分釋放 AI 技術的潛力，並有效管理潛在風險。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。