Kubeflow 將 AutoML 融入機器學習工作流程

將AutoML技術整合到現有機器學習工作流程中需要考慮幾個關鍵因素：

何時使用AutoML

AutoML並非萬能藥，在決定是否使用它時應考慮：

問題複雜性 - 對於簡單問題，手動調整可能更快；複雜問題則適合AutoML
計算資源 - AutoML需要大量計算資源，確保基礎設施能夠支援
時間限制 - 完整的AutoML搜尋可能需要數天甚至數週，評估時間約束
專業知識可用性 - 如果缺乏領域工作者，AutoML可以彌補這一差距

人類工作者與AutoML的協作

最有效的方法通常是人類工作者與AutoML工具的協作：

初始搜尋空間設計 - 工作者可以定義合理的搜尋範圍，避免無效搜尋
中間結果分析 - 工作者可以分析初步結果，調整搜尋方向
最終模型評估 - 工作者可以評估自動生成的模型，確保其符合業務需求

在實際工作中，我發現這種協作方式能夠結合人類直覺與機器效率，產生最佳結果。

AutoML的未來發展

AutoML領域正在快速發展，未來趨勢包括：

更高效的搜尋演算法 - 減少計算資源需求
更廣泛的任務支援 - 擴充套件到更多機器學習任務型別
更好的可解釋性 - 提供對自動生成模型的更好理解
端對端自動化 - 從資料預處理到模型佈署的完整自動化

隨著這些進展，AutoML將變得更加主流，成為資料科學家工具箱中的標準工具。

超引數調整與AutoML最佳實踐

根據我在多個機器學習專案中的經驗，以下是一些超引數調整和AutoML的最佳實踐：

搜尋空間設計

從廣到窄 - 先進行廣泛搜尋，然後在有希望的區域進行細化
對數尺度 - 對於學習率等引數，使用對數尺度而非線性尺度
考慮引數依賴性 - 某些超引數可能相互影響，設計搜尋空間時

Katib：Kubernetes原生的超引數調優框架

超引數調優往往是機器學習工程師最耗時的工作之一。在建立模型時，我們需要決定學習率、批次大小、層數等各種超引數，這些引數無法透過訓練過程自動學習，卻對模型效能有決定性影響。經過多年在大型機器學習系統的開發經驗，玄貓發現手動調參既費時又難以系統化，特別是在複雜模型中。

Katib正是為解決這一挑戰而生的Kubernetes原生超引數調優框架。作為Kubeflow生態系統的核心元件，Katib讓我們能夠自動化超引數搜尋過程，大幅提高機器學習工作流程的效率。

Katib的核心概念與架構

在深入Katib的使用之前，我們需要理解其三個基本構建塊：實驗、建議和試驗。這種設計使Katib具有極高的擴充套件性和適應性。

實驗（Experiment）

實驗是Katib的最高層級概念，定義了整個超引數調優過程。每個實驗包含以下關鍵元素：

目標函式：定義如何評估模型效能，可以是我們希望最大化（如準確率）或最小化（如損失值）的指標
超引數搜尋空間：指定每個引數可能的取值範圍
搜尋演算法：決定如何在搜尋空間中選擇下一組引數進行測試
資源限制：包括最大試驗次數、平行試驗數和失敗容忍度等

建議（Suggestion）

建議是搜尋演算法產生的下一組待測試的超引數值。Katib的控制器會根據之前試驗的評估結果，使用指定的搜尋演算法生成新的建議。

試驗（Trial）

試驗是實驗的一次迭代執行。每次試驗使用一組特定的超引數值執行工作程式（透過Docker封裝），並產生評估指標。Katib控制器根據這些指標計算下一個建議，並啟動新的試驗。

在Katib中，實驗、建議和試驗都是自定義資源（Custom Resources），這意味著它們儲存在Kubernetes中，可以使用標準的Kubernetes API進行操作和管理。這種設計充分利用了Kubernetes的宣告式API和控制器模式，使得整個系統更加穩定和可靠。

Katib支援的搜尋演算法

超引數調優的另一個關鍵方面是如何找到下一組引數。目前Katib支援多種搜尋演算法，每種演算法都有其獨特的優勢和適用場景：

網格搜尋（Grid Search）

網格搜尋是最簡單的方法，它在指定的搜尋空間中詳盡地搜尋所有可能的引數值組合。雖然這種方法計算資源密集，但它具有高度平行性的優勢，因為所有任務完全獨立。

# 網格搜尋的概念示範
learning_rates = [0.001, 0.01, 0.1]
batch_sizes = [32, 64, 128]
optimizers = ['sgd', 'adam', 'rmsprop']

# 將測試所有27種組合
for lr in learning_rates:
    for bs in batch_sizes:
        for opt in optimizers:
            train_model(learning_rate=lr, batch_size=bs, optimizer=opt)

這段程式碼展示了網格搜尋的基本思想。它會遍歷所有可能的超參陣列合（在這個例子中是3×3×3=27種組合），並對每種組合訓練模型。網格搜尋的優點是保證能找到最佳組合，缺點是當引數空間擴大時，組合數量會呈指數級增長，計算成本極高。在實際應用中，這種方法適用於引數較少或我們對引數範圍有明確瞭解的情況。

隨機搜尋（Random Search）

隨機搜尋類別似於網格搜尋，任務同樣完全獨立。但不同的是，隨機搜尋透過隨機選擇來生成引數值，而不是列舉所有可能的值。當有許多超引數需要調整（但只有少數對模型效能有顯著影響）時，隨機搜尋可以大優於網格搜尋。

# 隨機搜尋的概念示範
import random

# 定義引數範圍
lr_range = (0.0001, 0.1)
bs_range = (16, 256)
opt_choices = ['sgd', 'adam', 'rmsprop']

# 執行n次隨機試驗
for i in range(n_trials):
    lr = random.uniform(*lr_range)  # 隨機學習率
    bs = random.choice(range(bs_range[0], bs_range[1]+1, 16))  # 隨機批次大小
    opt = random.choice(opt_choices)  # 隨機最佳化器
    train_model(learning_rate=lr, batch_size=bs, optimizer=opt)

這段程式碼展示了隨機搜尋的實作方式。與網格搜尋不同，它在每次試驗中隨機選擇引數值，而不是系統性地嘗試所有組合。研究表明，當只有少數超引數真正重要時，隨機搜尋比網格搜尋更有效率。這是因為隨機搜尋能在重要引數的維度上提供更多樣化的取值，而不會浪費計算資源在不重要引數的所有可能值上。這種方法也非常適合離散引數量較高的情況，因為這種情況下網格搜尋可能變得不可行。

貝葉斯最佳化（Bayesian Optimization）

貝葉斯最佳化是一種強大的方法，它利用機率和統計來尋找更好的引數。貝葉斯最佳化為目標函式建立機率模型，找到在模型上表現良好的引數值，然後根據試驗執行期間收集的指標迭代更新模型。

直觀地說，貝葉斯最佳化透過做出明智的猜測來改進模型。這種最佳化方法依賴於先前的迭代來找到新引數，並且可以平行化。雖然試驗不像網格或隨機搜尋那樣獨立，但貝葉斯最佳化可以用更少的總體試驗找到結果。

# 使用scikit-optimize實作簡化的貝葉斯最佳化範例
from skopt import gp_minimize
from skopt.space import Real, Integer, Categorical

# 定義評估函式
def evaluate_model(params):
    lr, bs, opt = params
    # 訓練模型並回傳損失值
    return train_and_evaluate(learning_rate=lr, batch_size=bs, optimizer=opt)

# 定義搜尋空間
search_space = [
    Real(0.0001, 0.1, name='learning_rate', prior='log-uniform'),
    Integer(16, 256, name='batch_size'),
    Categorical(['sgd', 'adam', 'rmsprop'], name='optimizer')
]

# 執行貝葉斯最佳化
result = gp_minimize(
    evaluate_model,
    search_space,
    n_calls=20,
    random_state=42
)

這段程式碼展示瞭如何使用scikit-optimize函式庫實作貝葉斯最佳化。貝葉斯最佳化的核心思想是建立一個目標函式的機率模型（通常是高斯過程），然後使用此模型來決定下一個最有希望的參陣列合。與隨機或網格搜尋不同，貝葉斯方法會"學習"從先前的試驗中獲得的訊息，因此能夠更人工智慧地探索引數空間。

貝葉斯最佳化特別適合計算成本高的模型訓練場景，因為它能用最少的試驗次數找到好的引數。在這個例子中，我們定義了引數空間，然後呼叫gp_minimize函式執行最佳化過程，該函式會自動平衡探索（嘗試新區域）和利用（最佳化已知的好區域）。

Hyperband

Hyperband是一種相對較新的方法，它隨機選擇設定值。但與傳統的隨機搜尋不同，Hyperband只評估每個試驗較少的迭代次數。然後，它選擇表現最好的設定並執行更長時間，重複此過程直到達到所需結果。由於其與隨機搜尋的相似性，任務可以高度平行化。

# Hyperband概念示範
def hyperband_optimization():
    max_iter = 81  # 最大迭代次數
    eta = 3        # 控制每輪淘汰的比例
    
    # 計算最大預算和最小資源分配
    logeta = lambda x: log(x) / log(eta)
    s_max = floor(logeta(max_iter))
    B = (s_max + 1) * max_iter
    
    for s in reversed(range(s_max + 1)):
        # 計算本輪的初始設定數和資源分配
        n = ceil(int(B/max_iter/(s+1)) * eta**s)
        r = max_iter * eta**(-s)
        
        # 隨機生成n個設定
        configs = [random_configuration() for _ in range(n)]
        
        for i in range(s + 1):
            # 為每個設定分配資源
            n_i = floor(n * eta**(-i))
            r_i = r * eta**i
            
            # 評估這些設定的效能
            results = [evaluate_config(config, r_i) for config in configs]
            
            # 選擇表現最好的前n_i/eta個設定
            configs = select_top_k(configs, results, floor(n_i/eta))
    
    return best_config

這段程式碼展示了Hyperband演算法的基本流程。Hyperband的核心思想是「早停」策略與隨機搜尋的結合。它首先隨機生成多個設定，但只用較少的資源（如訓練迭代次數）評估每個設定，然後只保留表現最好的一部分設定，並增加它們的資源分配，重複此過程。

Hyperband特別適合那些訓練成本高但可以從部分訓練結果中推斷最終效能的模型。它解決了傳統隨機搜尋的一個主要問題：在有限資源下，是應該嘗試更多的設定（exploration）還是對有希望的設定投入更多資源（exploitation）？Hyperband透過動態分配資源來平衡這兩個目標。

其他實驗性演算法

Katib還支援其他實驗性演算法，包括樸素樹估計量（Tree of Parzen Estimators, TPE）和協方差矩陣適應進化策略（Covariance Matrix Adaptation Evolution Strategy, CMA-ES），這些都是透過使用Goptuna最佳化框架實作的。

Katib的指標收集器

Katib中的最後一個重要元件是指標收集器。這是在每次試驗後收集和解析評估指標並將它們推播到永續性資料函式庫的程式。Katib透過邊車容器（sidecar container）實作指標收集，該容器與主容器一起在pod中執行。

總體而言，Katib的設計使其具有高度可擴充套件性、可移植性和可擴充套件性。作為Kubeflow平台的一部分，Katib原生支援與Kubeflow的其他訓練元件（如TF工作和PyTorch運算元）的整合。Katib也是第一個支援多租戶的超引數調優框架，這使其非常適合雲代管環境。

安裝Katib

Katib通常在Kubeflow中預設安裝。如果你想將Katib作為獨立服務安裝，可以使用Kubeflow GitHub儲存函式庫中的以下指令碼：

git clone https://github.com/kubeflow/katib
bash ./katib/scripts/v1beta1/deploy.sh

如果你的Kubernetes叢集不支援動態卷設定，你還需要建立一個永續性儲存區：

pv_path=https://raw.githubusercontent.com/kubeflow/katib/master/manifests\
/v1beta1/pv/pv.yaml
kubectl apply -f pv_path

安裝Katib元件後，你可以導航到Katib儀錶板來驗證它是否正在執行。如果你透過Kubeflow安裝了Katib並有一個端點，只需導航到Kubeflow儀錶板並在選單中選擇"Katib"。否則，你可以設定連線埠轉發來測試你的佈署：

kubectl port-forward svc/katib-ui -n kubeflow 8080:80

然後導航到：

http://localhost:8080/katib/

執行你的第一個Katib實驗

現在Katib已經在你的叢集中執行，讓我們看如何執行一個實際的實驗。在本文中，我們將使用Katib來調優一個簡單的MNist模型。你可以在Katib的GitHub頁面上找到原始碼和所有設定檔案。

準備你的訓練程式碼

第一步是準備你的訓練程式碼。由於Katib執行訓練作業進行試驗評估，每個訓練作業都需要封裝為Docker容器。Katib是與語言無關的，所以你如何編寫訓練程式碼並不重要。然而，為了與Katib相容，訓練程式碼必須滿足幾個要求：

超引數必須作為命令列引數公開。例如：

python mnist.py --batch_size=100 --learning_rate=0.1

指標必須以與指標收集器一致的格式公開。Katib目前支援透過標準輸出、檔案、TensorFlow事件或自定義方式收集指標。最簡單的選擇是使用標準指標收集器，這意味著評估指標必須以下格式寫入標準輸出：
```
metrics_name=metrics_value
```

我們將使用的範例訓練模型程式碼可以在GitHub上找到。準備好訓練程式碼後，只需將其封裝為Docker映像即可使用。

設定實驗

一旦你有了訓練容器，下一步就是為你的實驗編寫規範。Katib使用Kubernetes自定義資源來表示實驗。

以下是一個範例實驗規範：

apiVersion: "kubeflow.org/v1beta1"
kind: Experiment
metadata:
  namespace: kubeflow
  labels:
    controller-tools.k8s.io: "1.0"
  name: random-example
spec:
  objective:
    type: maximize
    goal: 0.99
    objectiveMetricName: Validation-accuracy
    additionalMetricNames:
      - Train-accuracy
  algorithm:
    algorithmName: random
  parallelTrialCount: 3
  maxTrialCount: 12
  maxFailedTrialCount: 3
  parameters:
    - name: --lr
      parameterType: double
      feasibleSpace:
        min: "0.01"
        max: "0.03"
    - name: --num-layers
      parameterType: int
      feasibleSpace:
        min: "2"
        max: "5"
    - name: --optimizer
      parameterType: categorical
      feasibleSpace:
        list:
          - sgd
          - adam
          - ftrl
  trialTemplate:
    goTemplate:
      rawTemplate: |-
        apiVersion: batch/v1
        kind: 工作
        metadata:
          name: {{.Trial}}
          namespace: {{.NameSpace}}
        spec:
          template:
            spec:
              containers:
              - name: {{.Trial}}
                image: docker.io/kubeflowkatib/mxnet-mnist
                command:
                - "python3"
                - "/opt/mxnet-mnist/mnist.py"
                - "--batch-size=64"
                {{- with .HyperParameters}}
                {{- range .}}
                - "{{.Name}}={{.Value}}"
                {{- end}}
                {{- end}}
              restartPolicy: Never

這個設定檔案看起來有點複雜，讓我們仔細看規範（spec）部分的每個部分：

目標（Objective）

這是我們設定如何衡量訓練模型效能以及實驗目標的地方。在這個實驗中，我們嘗試最大化validation-accuracy指標。如果我們達到0.99（99%準確率）的目標，就會停止實驗。additionalMetricsNames代表從每個試驗收集的指標，但不用於評估試驗。

演算法（Algorithm）

在這個實驗中，我們使用隨機搜尋；某些演算法可能需要額外的設定。

預算設定（Budget configurations）

這是我們設定實驗預算的地方。在這個實驗中，我們將平行執行3個試驗，總共12個試驗。如果有三個失敗的試驗，我們也會停止實驗。這最後一部分也被稱為錯誤預算（error budget）—— 維護生產級系統的重要概念。

引數（Parameters）

這部分定義了我們要調整的超引數及其可能的取值範圍。在此範例中，我們調整三個引數：

--lr（學習率）：一個介於0.01和0.03之間的雙精確度浮點數
--num-layers（層數）：一個介於2和5之間的整數
--optimizer（最佳化器）：從sgd、adam和ftrl中選擇的分類別值

試驗範本（Trial Template）

這部分定義瞭如何為每個試驗建立Kubernetes作業。它使用Go範本語法來動態生成作業定義。在這個例子中，我們指定了:

使用docker.io/kubeflowkatib/mxnet-mnist作為容器映像
執行Python指令碼/opt/mxnet-mnist/mnist.py
設定固定的批次大小為64
動態增加由Katib生成的超引數值

這個範本的強大之處在於它的靈活性 —— 你可以定義任何Kubernetes資源來執行你的試驗，只要它能夠執行訓練程式碼並產生指標。

啟動Katib實驗

設定好實驗後，只需使用kubectl應用實驗定義：

kubectl apply -f experiment.yaml

Katib控制器將接管並開始生成試驗。你可以透過Katib UI或使用kubectl命令監控進度：

kubectl get experiment random-example -n kubeflow -o yaml
kubectl get trials -n kubeflow -l experiment=random-example

Katib實驗的實際應用案例

在玄貓的實踐中，Katib在多個機器學習專案中都展現出了強大的價值。以下是一個典型的使用場景：

案例：最佳化推薦系統的超引數

在建構一個電子商務推薦系統時，我們需要調整多個超引數，包括：

深度學習模型的層數和每層神經元數量
學習率和正則化係數
嵌入向量的維度
注意力機制的引數
不同特徵的權重

手動調整這些引數幾乎是不可能的，因為組合太多。使用Katib，我們可以：

定義一個廣泛的搜尋空間，包含所有這些引數
選擇貝葉斯最佳化演算法，因為它能更快地找到好的參陣列合
設定一個合理的預算（例如50次試驗）
讓Katib自動執行實驗，同時我們可以專注於其他工作

最終結果是：模型效能提高了17%，而與整個過程完全自動化，節省了數週的手動調參時間。

Katib與AutoML的關係

超引數調優是自動機器學習（AutoML）的一個重要子集。AutoML的目標是自動化整個機器學習工作流程，包括：

特徵工程和選擇
模型架構搜尋
超引數調優
模型整合

Katib主要專注於超引數調優，但它的框架足夠靈活，可以擴充套件到模型架構搜尋（例如神經架構搜尋，NAS）。事實上，Katib已經開始支援一些AutoML功能，讓機器學習工作流程更加自動化。

最佳實踐與技巧

根據我在多個專案中使用Katib的經驗，以下是一些最佳實踐：

1. 明智地定義搜尋空間

搜尋空間過大會導致效率低下，而過小可能會錯過最佳引數。建議先進行粗略搜尋，然後在有希望的區域進行細化搜尋。

2. 選擇合適的搜尋演算法

對於少量引數和足夠的計算資源，網格搜尋是最全面的
對於大多數情況，隨機搜尋提供了良好的平衡
對於計算密集型模型，貝葉斯最佳化通常是最佳選擇
對於訓練時間長但可以從早期指標預測效能的模型，Hyperband非常有效

3. 使用早停策略

將早停策略整合到你的訓練程式碼中，這樣當模型不再改進時，試驗可以提前終止，節省計算資源。

4. 平行化與資源管理

Katib允許平行執行多個試驗，但要注意叢集資源。設定合理的parallelTrialCount，避免資源爭用。

5. 儲存和分析結果

Katib會儲存所有試驗的結果，這些資料是寶貴的。分析這些結果可以幫助你理解引數如何影響模型效能，為未來的專案提供洞察。

結語

Katib作為Kubernetes原生的超引數調優框架，為機器學習工作流程帶來了前所未有的自動化和效率。它不僅簡化了超引數調優過程，還提供了強大的可擴充套件性和靈活性，使其能夠適應各種機器學習任務。

透過Katib，我們可以擺脫手動調參的繁瑣工作，專注於模型設計和業務邏輯。隨著AutoML領域的不斷發展，Katib也在持續進化，增加更多功能和演算法支援。對於任何在Kubernetes環境中進行機器學習的團隊，Katib都是一個值得探索和採用的強大工具。

在機器學習工程化的道路上，自動化超引數調優是提高效率的關鍵步驟。Katib不僅能幫助我們找到更好的模型引數，還能透過標準化和自動化整個流程，使機器學習專案更加可靠和可重複。

Katib 超引數調整：從理論到實踐的完整

在機器學習工程中，超引數調整往往是一個費時與充滿挑戰的過程。模型的效能很大程度上取決於我們選擇的超參陣列合，而尋找最佳設定通常需要大量的嘗試與錯誤。Kubeflow 的 Katib 元件正是為解決這個問題而設計的強大工具，它能在 Kubernetes 環境中自動化超引數調整過程。

在這篇文章中，我將帶領大家深入瞭解 Katib 的實際應用，從基礎概念到實戰操作，讓你能夠有效地利用這個工具最佳化機器學習模型。

超引數調整的核心要素

在開始使用 Katib 之前，我們需要理解超引數調整涉及的幾個關鍵元素：

搜尋空間定義：確定要調整的超引數及其可能的取值範圍
目標指標：用於評估模型效能的指標，如準確率、損失值等
搜尋演算法：用於在搜尋空間中尋找最佳參陣列合的方法
資源限制：包括最大試驗次數、平行試驗數等

Katib 提供了一個統一的框架來管理這些元素，讓我們能夠在 Kubernetes 環境中高效地執行超引數調整實驗。

Katib 實驗設定解析

Katib 實驗透過 Kubernetes 資源定義，使用 YAML 格式描述。一個典型的 Katib 實驗設定包含以下幾個部分：

實驗規格的關鍵組成

讓我們來看一個 Katib 實驗設定的核心部分：

apiVersion: "kubeflow.org/v1beta1"
kind: Experiment
metadata:
  namespace: kubeflow
  name: random-example
spec:
  objective:
    type: maximize
    goal: 0.99
    objectiveMetricName: Validation-accuracy
  algorithm:
    algorithmName: random
  maxTrialCount: 12
  maxFailedTrialCount: 3
  parallelTrialCount: 3
  parameters:
    - name: --lr
      parameterType: double
      feasibleSpace:
        min: "0.01"
        max: "0.03"
    - name: --num-layers
      parameterType: int
      feasibleSpace:
        min: "2"
        max: "5"
    - name: --optimizer
      parameterType: categorical
      feasibleSpace:
        list:
          - sgd
          - adam
          - ftrl

這個設定義了一個使用隨機搜尋演算法的超引數調整實驗。在這個實驗中：

目標設定：我們尋求最大化驗證準確率（Validation-accuracy），目標是達到 0.99
實驗範圍：最多執行 12 次試驗，允許 3 次失敗，平行執行 3 個試驗
超引數定義：
- 學習率（–lr）：範圍在 0.01 到 0.03 之間的浮點數
- 網路層數（–num-layers）：範圍在 2 到 5 之間的整數
- 最佳化器（–optimizer）：從 sgd、adam 和 ftrl 中選擇

這種設定方式允許我們精確控制超引數搜尋空間，同時設定明確的最佳化目標。

試驗範本設定

除了定義搜尋空間和演算法外，我們還需要指定每個試驗的執行方式。這透過試驗範本（Trial Template）來實作：

trialTemplate:
  goTemplate:
    rawTemplate: |
      apiVersion: batch/v1
      kind: 工作
      metadata:
        name: {{.Trial}}
        namespace: {{.NameSpace}}
      spec:
        template:
          spec:
            containers:
            - name: {{.Trial}}
              image: docker.io/kubeflowkatib/mxnet-mnist
              command:
              - "python3"
              - "/opt/mxnet-mnist/mnist.py"
              - "--batch-size=64"
              {{- with .HyperParameters}}
              {{- range .}}
              - "{{.Name}}={{.Value}}"
              {{- end}}
              {{- end}}
            restartPolicy: Never

試驗範本定義瞭如何將超引數值傳遞給實際的訓練程式碼。在這個例子中：

每個試驗都會建立一個 Kubernetes 工作
使用指定的 Docker 映像（docker.io/kubeflowkatib/mxnet-mnist）
執行 Python 指令碼並傳入固定引數（–batch-size=64）
動態增加由 Katib 生成的超引數值（透過範本變數 {{.HyperParameters}}）

這種設計使得 Katib 能夠靈活地與各種機器學習框架和訓練程式碼整合，只需調整範本即可。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。