近年來,基礎模型(Foundation Models,FMs)的應用日益廣泛,資料清理和分析是其中一個重要的領域。本實驗探討了 ChatGPT 搭配 GPT-4 模型在資料清理和分析方面的能力。實驗資料為一個包含不一致銷售資料結構的工作表,涵蓋消費者、企業和家庭辦公室等不同段落,每個段落都有不同的運送模式和對應的總計。實驗過程包含提出多個關於不同類別值的問題,例如特定訂單的銷售金額細節、消費者段落在特定期間內的銷售趨勢等。ChatGPT 成功地回答了這些問題,即使在原始資料欄位標籤不明確的情況下,也能透過替代方法定位正確欄位並提取資料。此外,ChatGPT 也成功地執行了多項資料清理操作,展現其在資料處理方面的潛力。實驗結果顯示,基礎模型在資料清理和分析領域具有相當的應用價值,能有效協助開發者處理複雜的資料問題。

資料清理實驗

近年來,Foundation Models(FMs)功能不斷擴充套件,應用領域也日益廣泛。對於 AI 系統開發者而言,資料清理和準備是其中一個重要的應用領域。為了探索 FMs 在資料清理和分析方面的能力,我們進行了一個實驗,嘗試使用 ChatGPT 搭配 GPT-4 模型進行資料清理和分析。以下是實驗結果的摘要,完整對話記錄可線上上查閱。

實驗過程

我們首先上傳了一個包含名為「Dirty 1」的工作表的檔案,該工作表包含不一致的銷售資料結構。資料包括消費者、企業和家庭辦公室等不同段落,每個段落都有不同的運送模式和對應的總計。接著,我們提出了多個有關不同類別值的問題。

ChatGPT 正確回答了這些問題,包括識別特定訂單 ID(CA-2012-162201)的銷售金額細節。由於原始資料中「訂單 ID」欄位沒有明確標籤,ChatGPT 採用了替代方法來定位正確的欄位並提取指定訂單 ID 的詳細資料。

趨勢分析

當被問及消費者段落在給定期間內的銷售趨勢時,ChatGPT 進行了銷售資料的聚合分析,以確保正確地處理日期並找出可能的趨勢。

資料清理

在提出多個有關資料的問題後,包括繪製圖表,我們要求 ChatGPT 清理資料。它成功識別了原始資料中的問題,並執行了多個清理操作。完整的對話記錄可供查閱。

組織成熟度

FMs 的功能不斷增強,越來越多的組織正在採用它們。使用 FMs 不僅需要考慮技術層面的問題,也需要評估組織自身的成熟度和適應能力。只有當組織充分理解並準備好利用 FMs 的潛力時,才能真正發揮出其價值。因此,評估組織成熟度和制定適合的戰略是成功匯入和應用 FMs 的關鍵一步。

基礎模型的複雜性與挑戰

基礎模型(Foundation Models,FM)是一種大規模、通用的人工智慧模型,預先訓練在大量的廣泛資料上。這些模型可以適應執行多種任務,但要達到最佳的能力和效能,往往需要結合多個互動元件,而不是僅僅依靠單一的基礎模型。基礎模型通常根據 Transformer 架構,這種架構依賴向量空間和注意力機制。

基礎模型的自訂

基礎模型可以透過多種技術進行自訂,例如提示工程(Prompt Engineering)、增強生成(Retrieval Augmented Generation,RAGs)、微調(Fine Tuning)、蒸餾(Distillation)和防護欄(Guardrails)。然而,組織在使用基礎模型時需要考慮的問題之一是專有資訊的洩露。使用基礎模型設計應用程式取決於成本因素和基礎模型的型別。利用基礎模型不僅取決於基礎模型的能力,也取決於開發組織的成熟度。

基礎模型的挑戰

基礎模型仍然存在一些內在的挑戰。其中兩個主要挑戰是:

  1. 有限的基礎:基礎模型關注於在資料序列中識別統計模式,而不是根據事實或權威知識。它們可以識別相關性,但缺乏底層的因果模型或世界模型,這可能導致輸出的顯著不準確。
  2. 幻覺或填補:沒有基礎,基礎模型缺乏評估其輸出信心和真實性的能力,並且傾向於提供答案,即使這些答案不完全正確。這種現象被稱為“幻覺”或“填補”,它強調了基礎模型在不確定情況下填補空白的創造性方法。
討論問題
  1. 選擇一個特定的組織或個人任務,比較使用狹窄的人工智慧模型和基礎模型來實作它的優缺點。
  2. 選擇一個特定的組織或個人任務,比較使用不同方法自訂基礎模型來更好地實作它的優缺點。
  3. 選擇一個您熟悉的應用程式,比較使用基礎模型和狹窄的人工智慧模型的成本。

圖表翻譯

  graph LR
    A[基礎模型] -->|預先訓練|> B[廣泛資料]
    B -->|適應|> C[多種任務]
    C -->|自訂|> D[提示工程、RAGs、微調、蒸餾、防護欄]
    D -->|挑戰|> E[有限的基礎、幻覺或填補]

此圖表展示了基礎模型從預先訓練到自訂的過程,以及它們面臨的挑戰。

第五章:AI 模型生命週期

與 Boming Xia 合作

“選擇你的工具時要謹慎,但不要太過謹慎,以至於你會因為這些工具而分心,或花更多時間在購買工具而不是在寫作桌前。”

——Natalie Goldberg

從模型選擇到生產佈署需要經過多個步驟,並且需要使用大量的支援工具。因此,我們的開篇參照語是如此。你可以花費大量時間在選擇工具上,但不要陷入過度的選擇困難中。

有些工具用於管理用於訓練模型的資料,而其他工具則用於封裝模型以便佈署和服務。我們將在工具使用的背景下討論可用的工具型別。本章旨在幫助那些管理自己資料的人。如果你正在使用供應商提供的預先訓練好的模型,不論是狹義的機器學習模型還是基礎模型,供應商將負責準備和訓練模型,雖然你將負責任何用於自定義模型的資料,例如用於微調、推理和 RAGs 的資料。本章的組織遵循圖 5.1 所描述的 AI 模型開發生命週期。

圖 5.1:AI 模型生命週期——圖 1.2 的下半部分。

5.1 開發模型

如我們在第 1.5 節中定義的,MLOps 是一套用於準備機器學習模型投入生產和營運的實踐。我們將 MLOps 實踐分為三個部分進行討論。

第三章和第四章討論了模型選擇和超引數定義。本章討論了從模型開發到準備提交到構建階段的過程,第六章討論了從系統生命週期到營運的過程,包括但不限於 AI 模型部分。如我們將在第十三章《ARM Hub 案例研究》中看到的,MLOps 步驟適用於狹義機器學習模型和基礎模型的開發。

為了建立一個狹義的機器學習模型,它必須在一組特定於域和應用程式的資料上進行訓練。該集合中的每個資料項都可以被視為一組屬性的集合。其中大多數屬性將被視為獨立變數,其餘被視為依賴變數。所得到的模型的目的是預測依賴變數的值。這個過程涉及選擇一個合適的模型架構、組態模型引數以及訓練模型。

內容解密:

上述過程涉及多個步驟,包括資料預處理、模型選擇、超引數調整和模型訓練。每個步驟都需要仔細考慮,以確保最終模型的準確性和效率。例如,資料預處理可能涉及處理缺失值、資料歸一化和特徵工程。模型選擇需要考慮問題的複雜性、可用資料的大小和品質以及計算資源的限制。超引數調整需要使用技術如網格搜尋、隨機搜尋或貝葉斯最佳化來找到最佳引陣列合。最後,模型訓練需要選擇合適的最佳化演算法和損失函式,並監控訓練過程以避免過度擬合。

  graph LR
    A[資料預處理] --> B[模型選擇]
    B --> C[超引數調整]
    C --> D[模型訓練]
    D --> E[模型評估]

圖表翻譯:

上述流程圖展示了 AI 模型開發生命週期中的各個步驟。從左到右,第一步是資料預處理,接著是模型選擇、超引數調整、模型訓練和最終的模型評估。每個步驟都對最終模型的效能有著重要影響,因此需要仔細考慮和最佳化。

資料清理在 AI 應用落地的過程中扮演著至關重要的角色,本實驗以 ChatGPT 搭配 GPT-4 模型進行資料清理的探索,驗證了 Foundation Models 在資料處理方面的潛力。透過實驗結果分析,我們發現 ChatGPT 不僅能理解複雜的資料結構,還能準確地回答特定資料查詢、進行趨勢分析,並有效地執行資料清理任務,這展現了其在資料前處理階段的應用價值。然而,如同基礎模型的複雜性與挑戰章節所述,基礎模型仍存在「幻覺」和缺乏真實世界知識基礎的限制,這意味著在實際應用中,仍需人工介入和驗證以確保資料清理的準確性和可靠性。隨著 Foundation Models 的持續發展和技術的迭代更新,預期在資料清理領域的自動化程度和效率將獲得顯著提升。對於重視資料品質的企業而言,積極探索 Foundation Models 在資料清理方面的應用,並結合既有的資料治理策略,將有助於提升資料分析的效率並降低資料處理成本。玄貓認為,Foundation Models 在資料清理領域的應用仍處於早期階段,但其發展潛力不容忽視,及早佈局並累積實戰經驗將是企業未來保持競爭力的關鍵。