機器學習應用系統設計與成本分析

機器學習應用系統設計的核心環節之一，在於如何選擇合適的模型，究竟是採用專為特定任務訓練的狹義機器學習模型，還是根據海量資料預訓練的基礎模型。考量因素除了成本和資料可用性外，還需評估投資資料的效益。成本是關鍵決策因素，包含工具、開發、維護和營運成本。對於基礎模型，還需考慮本地自託管、雲端自託管或 API 使用等不同方案的成本差異。

狹義機器學習模型的開發成本通常包含資料取得、模型客製化等，而基礎模型則需評估預訓練成本、微調成本等。資料準備的難度和耗時，無論對於狹義機器學習模型或基礎模型，都是不可忽視的環節。模型開發活動也因模型型別而異，狹義機器學習模型著重於模型選擇、超引數調整、訓練和測試，而基礎模型則涉及更廣泛的客製化技術。考量維護成本時，非 AI 元件的演進成本大致相同，而資料演進和清理成本則需根據實際資料情況評估。至於營運成本，狹義機器學習模型在本地佈署或雲端託管的成本都相對較低，而基礎模型通常需在雲端託管，且服務費用較高，若在私有雲佈署，則需額外考量 GPU 資源的採購成本。

設計根據機器學習的應用系統

在設計根據機器學習（ML）的應用系統時，首要的決策之一就是是否使用狹義的機器學習模型（Narrow ML models）或基礎模型（Foundation Models, FM）。雖然基礎模型的使用正在被探索和整合到各種應用中，但目前的大多數 AI 系統仍由狹義的機器學習模型和非 AI 元件組成。這些狹義的機器學習模型和非 AI 元件在系統架構中共存，相互作用以確保系統正常運作。

狹義機器學習模型與基礎模型的選擇

選擇狹義機器學習模型或基礎模型的主要因素取決於成本和資料可用性，或是投資於使資料可用的努力。成本是決定這一選擇的關鍵因素。下面將詳細討論成本因素。

狹義機器學習模型和基礎模型的成本

在設計 AI 系統架構時，選擇狹義機器學習模型或基礎模型是一個核心決策，如圖 4.2 所示。如第三章《AI 背景》所討論，狹義機器學習模型是從頭開始為特定任務訓練的，使用自定義收集和經常標記的資料集。相比之下，基礎模型是預先在大量廣泛資料上進行預訓練的，可以透過微調和其他形式的定製來適應特定任務。此外，基礎模型可以在本地自行託管、在雲端自行託管，或透過 API 使用（如果可用）。這些不同的選項具有不同的成本，如下所述。

成本因素

成本是做出這一決策時需要考慮的關鍵因素。成本來源包括：

工具成本
開發成本
維護成本
營運成本

基礎模型的型別和存取方式

如果您決定使用基礎模型，則有不同型別的基礎模型和存取方式可供選擇。基礎模型可以根據其預訓練資料、架構和適用任務進行分類別。例如，有些基礎模型適合自然語言處理任務，而其他模型則更適合電腦視覺任務。

設計系統時的考慮因素

在設計根據機器學習的應用系統時，需要考慮多個因素，包括：

資料可用性和品質
任務複雜性和特定性
系統效能和可擴充套件性需求
成本和預算限制

資料可用性和品質

資料可用性和品質對於機器學習模型的效能有著重要影響。充足的高品質資料可以幫助提高模型的準確性和泛化能力。

任務複雜性和特定性

任務的複雜性和特定性也會影響模型的選擇。對於簡單、特定的任務，狹義機器學習模型可能足夠；而對於更複雜、更具普遍性的任務，基礎模型可能更合適。

系統效能和可擴充套件性需求

系統的效能和可擴充套件性需求也是重要的考慮因素。基礎模型通常需要更多的計算資源和記憶體，因此需要仔細評估系統的硬體和軟體能力。

成本和預算限制

最後，成本和預算限制也是需要考慮的重要因素。基礎模型可能需要更高的前期投資，但長期來看可能會節省成本並提高效率。

人工智慧模型開發成本分析

在評估人工智慧（AI）模型的開發成本時，我們需要考慮多個因素，包括工具成本、開發成本、維護成本和營運成本。以下是對這些成本的分析。

工具成本和開發成本

首先，我們假設非 AI 元件的開發成本大致相等。此外，如果組織選擇訓練或微調內部的語言模型（FM），則該開發成本將被分攤到多個應用中，每個應用只需承擔一部分的營運成本。雖然訓練最先進的 LLM（大語言模型）的成本預計將達到數千萬或數億美元，但為特定領域定製的 FM 可以更便宜地訓練。

如果組織構建多個狹窄的機器學習（ML）應用，它們可能會使用相同的工具來管理資料準備和模型構建。因此，工具成本也會被分攤到多個應用中，可以視為單個應用的營運成本。

因此，我們假設開發成本僅由資料攝取成本和模型定製成本組成。現在，我們忽略了狹窄 ML 模型和 FM 之間的開發成本差異。

資料攝取成本

在我們的 FM 案例研究中，第 12 章和第 13 章都提到資料準備是一個困難且耗時的過程。這對於狹窄 ML 模型的資料訓練和處理也同樣適用。應該檢查應用中使用的具體資料，以確定是否會在為 FM 準備資料和為狹窄 ML 模型準備資料之間出現顯著的資料攝取成本差異。

模型開發活動

FM 模型和狹窄 ML 模型的模型開發活動有所不同。狹窄 ML 模型的模型開發活動包括選擇模型、選擇超引數、訓練和測試模型。FM 的模型開發活動涉及第 4.4 節中討論的定製技術。任何模型開發成本差異都取決於您正在構建的具體應用和使用的資料型別。

維護成本

我們假設狹窄 ML 模型和 FM 之間的維護成本差異相對較小：

非 AI 元件的演進成本在兩種情況下都將相似。
演進訓練資料或清理輸入資料的成本將再次取決於資料的具體情況。

營運成本

營運成本是狹窄 ML 模型相比 FM 具有明顯優勢的地方：

狹窄 ML 模型可以在本地資源上託管，而無需使用雲端，即使在雲端託管，成本也僅為使用的資源。
FM 模型通常由於其規模而在公共或私有雲上託管。此外，許多提供商會對使用 FM 模型涉及的服務收費。這些費用往往大於託管 ML 服務的費用。
在私有雲資源上託管更大的 FM 可能需要採購更多 GPU 容量。截至目前，GPU 昂貴且供應有限。
狹窄 ML 工具的攤銷成本將與 FM 相比具有明顯優勢。

綜上所述，選擇合適的人工智慧解決方案需要仔細評估各種成本因素，包括工具成本、開發成本、維護成本和營運成本，以確保最佳的投資回報率。

選擇適合的特徵模型（FM）架構

在設計根據特徵模型（FM）的系統時，選擇適合的 FM 架構是一個重要的決策。這個決策涉及多個因素，包括成本、控制度、資料安全性以及模型的準確性和通用性。

外部 FM、自建 FM 或開放權重 FM

有三種主要的 FM 選擇：使用外部預訓練 FM 透過 API、自建 FM 或執行現有的開放引數模型。每種選擇都有其優缺點。

外部 FM

使用外部預訓練 FM 透過 API 可以節省人力資源，因為組織只需為 API 呼叫和請求/回應量付費。此外，使用成熟的外部 FM 可能會導致更高的準確性和通用性。然而，組織對於模型的控制度有限，資料隱私和安全性也可能引發關注。

自建 FM

一些組織可能擁有獨特的內部資料，可以用於訓練或微調自建 FM，這可能會帶來競爭優勢。自建 FM 還允許組織對模型管道具有完全控制權，可以進行定製並確保人工價值相關的品質。然而，執行大型 FM 可能需要大量投資。

開放權重 FM

自託管開放權重模型提供了一種中間方案。這種模型的權重或引數是公開的，雖然訓練資料和原始碼不是。這允許組織利用現有 FM 的進步同時保持對其使用和資料的控制。

FM 的成熟度和組織問題

隨著 FM 的成熟度提高，它們的能力也在不斷增強。組織也處於不同的成熟度水平，這影響了它們應該做出的選擇。因此，瞭解 FM 的成熟度以及組織面臨的挑戰至關重要。

實驗和資料清理

一個實驗表明，公開可用的 FM 可以用於資料清理，這是一項展示 FM 成熟度提高的任務。組織還需要考慮使用 FM 的相關問題，包括資料安全、隱私和投資回報等。

從商業價值與技術成熟度雙重視角來看，選擇機器學習模型架構（狹義模型或基礎模型）是建構 AI 應用系統的關鍵決策。分析成本結構、資料可用性、任務複雜度及系統效能需求後，我們發現並非所有應用都適合採用基礎模型。儘管基礎模型展現強大潛力，但高昂的營運成本、資料安全疑慮及模型可控性限制，使其在特定場景下未必具備最佳投資報酬率。對於資源有限的團隊，從成本效益角度出發，優先將狹義模型應用於特定任務，並逐步探索基礎模型的整合，方能兼顧效率與創新。考量到基礎模型技術仍在快速演進，未來幾年隨著模型輕量化、佈署成本降低及開源社群的蓬勃發展，預期基礎模型的應用門檻將顯著下降。密切關注這些趨勢，並審慎評估自身需求，才能在 AI 技術浪潮中掌握最佳時機，將技術優勢轉化為實際商業價值。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。