MLOps

18 Articles

Kubeflow：為何選擇TF工作實作生產級機器學習佈署

2025年11月20日 – 13 分鐘閱讀

在將機器學習模型從實驗階段推進到生產環境時，我們經常面臨一系列技術挑戰。這些挑戰往往超出了模型本身的複雜性，涉及基礎設施、資源管理和佈署流程等多個層面。機器學習佈署的關鍵挑戰在實際工作中，我發現將訓練程式碼佈署到生產環境時，開發團隊通常會遇到以下難題

Kubeflow：理解模型決策的變化

2025年11月13日 – 79 分鐘閱讀

機器學習或模型開發本質上遵循這樣一條路徑：資料 → 資訊 → 知識 → 洞見。這個從資料生成洞見的過程可以用模型開發生命週期(Model Development Life Cycle, MDLC)來描述。

Kubeflow：KFServing 的基礎架構解析

2025年10月13日 – 19 分鐘閱讀

要真正理解 KFServing 的強大之處，我們需要深入其基礎架構堆積疊。KFServing 是以雲原生方式構建的，與 Kubeflow 一樣，它受益於底層每一層的功能。KFServing 的架構堆積疊包括：硬體層底層硬體是所有上層的基礎構建塊。叢集可以執行

Kubeflow 降噪效果分析

2025年09月19日 – 14 分鐘閱讀

我們可以比較不同降噪程度的效果。以下是一些關鍵觀察： 1. 原始影像：含有一定程度的雜訊，可能影響細節觀察 2. 輕度降噪0.5%-1%： - 移除了最細微的雜訊 - 保留了所有診斷相關的細節 - 通常是最佳的臨床應用選擇 3. 中度降噪5%： - 明顯減少雜訊

Kubeflow：Parameter Server 策略解析

2025年09月16日 – 15 分鐘閱讀

分散式訓練架構：在大規模機器學習場景中，單一節點的運算能力往往無法滿足模型訓練需求。分散式訓練架構應運而生，其中 Parameter Server 策略是一種廣泛應用的方法。 Parameter Server 架構原理 Parameter Serve

Kubeflow：現實世界不是靜止的

2025年07月04日 – 9 分鐘閱讀

為何模型會悄然退化？理解隱藏的風險因素資料分佈變化：現實世界不是靜止的模型退化的首要原因是資料分佈的變化。訓練資料捕捉的是特定時間點的世界狀態，但現實世界卻在不斷演變： - 概念漂移Concept Drift: 輸入特徵與目標變數之間的關係發生變化 - 特徵漂移Feature Drift:

MLflow 與 Kubeflow

2025年05月20日 – 14 分鐘閱讀

MLflow的程式化查詢能力非常靈活，除了基本的實驗ID查詢外，還支援複雜的條件過濾、時間範圍篩選和自定義查詢邏輯。這使得自動化分析和報告生成變得簡單高效。

Kubeflow 將 AutoML 融入機器學習工作流程

2025年02月18日 – 16 分鐘閱讀

技術整合到現有機器學習工作流程中需要考慮幾個關鍵因素：何時使用AutoML AutoML並非萬能藥，在決定是否使用它時應考慮： 1. 問題複雜性 - 對於簡單問題，手動調整可能更快；複雜問題則適合AutoML 2. 計算資源 - AutoML

機器學習模型監控系統設計與可靠性工程實務

2025年02月07日 – 25 分鐘閱讀

深入探討機器學習模型監控系統的設計與實作，涵蓋 Data Drift 偵測、Concept Drift 處理、模型效能追蹤、A/B 測試框架與監控儀表板建置，提供完整的 Python 程式碼實作範例。

Kubeflow：機器學習模型推論

2024年12月22日 – 17 分鐘閱讀

在機器學習領域，大多數關注點往往集中在演算法開發上，但模型最終目的並非僅止於建立，而是要投入實際生產環境中發揮價值。當我們談論將模型「推向生產環境」時，通常指的是執行推論inference流程。一個完整的推論解決方案應該包含三個核心功能：模型服務serving、監控

Kubeflow：機器學習工作流程的容器化革命

2024年12月17日 – 18 分鐘閱讀

Kubeflow：機器學習工作流程的容器化革命機器學習專案的生命週期管理一直是許多團隊面臨的挑戰。從資料準備、模型訓練到模型佈署，每個階段都需要不同的工具和資源。如何將這些步驟有效地整合並實作自動化，是提高機器學習團隊生產力的關鍵。Kubeflow 正是為解決這一挑戰而誕生的開放原始碼平台。在開

Kubeflow：構建更複雜的 Pipeline

2024年10月28日 – 70 分鐘閱讀

模型解釋性監控：理解模型決策的變化監控模型的解釋性指標可以幫助理解模型決策邏輯是否發生變化： bash sudo snap install kubectl --classic bash brew install kubernetes-cli bash PLATFORM=$uname 檢測系統

Airflow 進階實踐：模型評估與管線最佳化

2024年07月19日 – 3 分鐘閱讀

本文為一份 Apache Airflow 的進階實踐指南，專注於如何在自動化的深度學習管線中，實現有效的模型評估與工作流程最佳化。內容涵蓋了評估指標（如 R-squared）的計算、資料轉換工具函式的實現，以及動態 DAG 生成和模型檢查點等 MLOps 關鍵技巧。

使用 Airflow 與 TensorFlow 建構深度學習管線：糖尿病預測實戰

2024年07月11日 – 4 分鐘閱讀

本文為一份完整的 MLOps 實戰教學，以「糖尿病預測」為案例，指導如何使用 Apache Airflow 將一個結合了 PySpark 進行資料預處理和 TensorFlow 進行模型訓練的深度學習專案，組織成一個自動化、可擴充套件的工作流程管線 (Pipeline)。

開放原始碼工具構建 CT 掃描降噪方案

2024年06月20日 – 13 分鐘閱讀

我們探討了 Kubeflow 生態系統中的各種推論解決方案，並透過一個實際案例展示了多工具協作的強大能力。根據特定的推論需求和基礎架構深度偏好，每種推論解決方案都有其獨特的優勢： - TensorFlow Serving 為 TensorFlow 模型提供了極高效能與

Kubeflow：無伺服器推論的未來

2024年06月15日 – 16 分鐘閱讀

KFServing：如我們所見，TensorFlow Serving和Seldon Core等工具顯示了ML模型生產級服務不是任何一個研究團隊或公司的獨特問題。不幸的是，這意味著每個內部解決方案都將使用不同的模型格式並公開獨特的專有服務API。 TensorFlow Ser

MLMD 與 MLflow 機器學習後設資料管理

2024年05月11日 – 12 分鐘閱讀

本文深入比較 MLMD 和 MLflow 兩種開源機器學習後設資料管理工具，探討它們的功能、用法和適用場景。MLMD 是一個輕量級函式庫，專注於後設資料記錄和檢索，適用於需要精細控制後設資料的場景。MLflow 則是一個完整的 MLOps

Kubeflow：測試你的模型

2024年02月08日 – 17 分鐘閱讀

在佈署到生產環境之前，徹底測試模型是至關重要的。Seldon Core提供了多種測試選項：直接使用Python客戶端執行模型這種方式允許在叢集外進行簡單的本地測試。假設你的Python模型定義在MyModel.py檔案中：安裝Seldon Core Python模組後，你可