Python 雲端規模擴充套件：Ray 分散式計算框架

Ray 是一個功能強大的分散式計算框架，專為簡化分散式應用程式的開發和執行而設計。它支援多種程式設計模型，例如任務（Task）、Actor 和資料流（DataFlow），讓開發者可以輕鬆地將現有的 Python 應用程式擴充套件到分散式環境。Ray 尤其適用於大資料處理、機器學習、工作流程排程、實時流處理和互動式應用等場景。Ray 的核心概念包含任務、Actor 和資源管理。任務是 Ray 的基本執行單元，開發者可以將函式標記為遠端任務，讓 Ray 自動管理平行執行。Actor 是具有狀態的執行單元，它們可以持久化狀態並且能夠被多個任務呼叫。Ray 提供了豐富的資源管理功能，例如自動擴充套件、資源約束和伺服器組，方便開發者管理分散式資源。相較於 Apache Spark 主要針對批次處理和流處理，Ray 更靈活且易於整合其他 Python 生態系統工具。與 Dask 主要針對資料科學和機器學習任務相比，Ray 提供更豐富的分散式計算模型和資源管理功能。隨著雲端運算和無伺服器架構的發展，Ray 預計將在多雲環境支援、AI 與機器學習、以及自動化與智慧化等方面持續發展。

import ray

# 初始化 Ray
ray.init()

@ray.remote
def my_function(x):
    return x * x

# 執行遠端函式
result = my_function.remote(5)
print(ray.get(result))  # 輸出結果：25

內容解密：

這段程式碼示範瞭如何使用 Ray 執行一個簡單的遠端函式。首先，ray.init() 初始化 Ray 框架，建立一個分散式計算環境。@ray.remote 裝飾器將 my_function 函式轉換為一個可以在 Ray 叢集中遠端執行的任務。my_function.remote(5) 非同步地呼叫遠端函式，並傳回一個 ObjectRef，代表函式的未來傳回值。ray.get(result) 則會等待遠端函式執行完成，並取回結果 25。

雲端運算與無伺服器架構中的 Python 規模擴充套件

當我們談論雲端運算與無伺服器架構時，Python 如何在這些環境中進行規模擴充套件成為了一個重要的話題。Ray 是一個強大的分散式計算框架，能夠幫助我們在多種場景下高效地擴充套件 Python 應用程式。以下，玄貓將帶你探討 Ray 的核心概念、實務應用及其在現代雲端運算中的角色。

Ray 的定義與應用場景

首先，我們來看看什麼是 Ray，以及它在不同應用場景中的定位。

Ray 的定義

Ray 是一個分散式計算框架，旨在簡化分散式應用程式的開發與執行。它支援任務（Task）、Actor 和資料流（DataFlow）等多種程式設計模型，使得開發者可以輕鬆地將現有的 Python 應用程式擴充套件到分散式環境中。

Ray 的應用場景

大資料處理：Ray 提供了可擴充套件的 DataFrame，適合處理大規模資料。
機器學習：Ray 支援多種機器學習框架，如 TensorFlow 和 PyTorch，能夠加速模型訓練。
工作流程排程：Ray 提供了強大的工作流程排程功能，適合複雜的資料處理管道。
實時流處理：Ray 支援實時資料流處理，適合處理即時資料。
互動式應用：Ray 能夠快速回應互動式查詢，適合互動式資料分析。

Ray 的核心概念

為瞭解決這些問題，Ray 提供了一些關鍵功能：

任務（Task）：任務是 Ray 的基本執行單元。開發者可以將函式標記為遠端任務，讓 Ray 自動管理平行執行。
Actor：Actor 是具有狀態的執行單元。它們可以持久化狀態並且能夠被多個任務呼叫。
資源管理：Ray 提供了豐富的資源管理功能，如自動擴充套件、資源約束和伺服器組等。

實際應用案例

以下是一個簡單的例子，展示如何使用 Ray 進行遠端任務執行：

import ray
ray.init()

@ray.remote
def add(a, b):
    return a + b

future = add.remote(1, 2)
print(ray.get(future))  # 輸出：3

內容解密：

此程式碼展示瞭如何使用 Ray 進行遠端任務執行。以下是詳細解說：

ray.init()：初始化 Ray 框架。
@ray.remote：將函式 add 標記為遠端任務。
add.remote(1, 2)：提交一個遠端任務並傳回一個未來物件（Future）。
ray.get(future)：等待遠端任務完成並取回結果。

這樣的設計使得開發者可以輕鬆地將現有的 Python 函式轉換為分散式任務。

Ray 與其他技術的比較

在選擇技術時，我們需要考慮不同技術之間的優缺點。以下是一些常見技術與 Ray 的比較：

Apache Spark vs. Ray：Spark 主要針對批次處理和流處理，而 Ray 則更靈活且易於整合其他 Python 生態系統工具。
Dask vs. Ray：Dask 主要針對資料科學和機器學習任務，而 Ray 則提供更豐富的分散式計算模型和資源管理功能。

未來趨勢

隨著雲端運算和無伺服器架構的不斷發展，Ray 將會在以下幾個方面獲得更多應用：

多雲環境支援：Ray 將會支援更多雲端服務提供商（如 AWS、Google Cloud、Azure），讓開發者可以更靈活地選擇計算資源。
AI 與機器學習：隨著 AI 和機器學習技術的進步，Ray 將會提供更多專門針對這些領域的最佳化功能。
自動化與智慧化：未來的 Ray 將會提供更多自動化和智慧化功能，如自動調優、故障還原等。

Ray：推動機器學習的強大工具

Ray 是一個功能強大的分散式計算框架，專為推動機器學習（ML）和大資料處理而設計。它提供了豐富的功能來簡化分散式系統的開發和執行，使得開發者能夠更輕鬆地處理大規模的資料和計算任務。以下將探討 Ray 的核心功能及其在實務應用中的優勢。

擴充套件平行操作

Ray 支援擴充套件平行操作，這在處理大規模資料時尤為重要。透過 Ray，開發者可以輕鬆地將計算任務分配到多個 CPU 或 GPU 上，從而提高計算效率。這對於需要大量資源的機器學習模型訓練和推理來說，具有顯著的優勢。

使用 Ray 的 DataFrame 操作

Ray 提供了類別似 pandas 的 DataFrame 操作，但具有更強的擴充套件性。這使得開發者可以在處理大資料時保持熟悉的操作方式，同時享受分散式計算帶來的效能提升。

  graph TD
    A[DataFrame 初始化] --> B[資料讀取]
    B --> C[資料處理]
    C --> D[資料分析]
    D --> E[結果輸出]

此圖示展示了使用 Ray DataFrame 的基本工作流程。首先是初始化 DataFrame，然後進行資料讀取、處理、分析以及最終的結果輸出。

內容解密：

DataFrame 初始化：使用 Ray 提供的 API 初始化 DataFrame，這與 pandas 的操作類別似，但底層是分散式計算。
資料讀取：從各種來源（如 CSV、HDFS、S3 等）讀取資料到 DataFrame 中。
資料處理：對讀取的資料進行預處理，例如清洗、轉換等。
資料分析：進行各種資料分析操作，如統計分析、特徵工程等。
結果輸出：將處理後的結果輸出到指定位置，例如儲存到檔案或顯示在畫面上。

增強機器學習能力

Ray 不僅支援平行操作，還提供了多種機器學習函式庫和工具，使得開發者可以更方便地進行模型訓練和調優。例如，Ray 支援 scikit-learn、XGBoost、LightGBM 等多種流行的機器學習函式庫。

使用 Ray 與 scikit-learn

scikit-learn 是一個廣泛使用的機器學習函式庫，Ray 提供了與 scikit-learn 的整合支援。這使得開發者可以輕鬆地將現有的 scikit-learn 模型擴充套件到分散式環境中。

  graph TD
    A[模型訓練] --> B[特徵工程]
    B --> C[模型調優]
    C --> D[模型評估]
    D --> E[模型佈署]

此圖示展示了使用 Ray 與 scikit-learn 的工作流程。從特徵工程開始，經過模型調優、評估，最終佈署模型。

內容解密：

模型訓練：使用 scikit-learn 的 API 初始化並訓練模型。
特徵工程：對原始資料進行特徵提取和轉換。
模型調優：調整超引數以提高模型效能。
模型評估：對訓練好的模型進行評估，檢查其效能指標。
模型佈署：將評估透過的模型佈署到生產環境中。

推動企業級應用

Ray 在企業級應用中也表現出色。它提供了豐富的工具來處理資安問題、與現有系統整合以及監控應用執行狀態。

安全性與整合

Ray 提供了多種安全性措施來保護資料和應用。此外，Ray 還可以與現有的 CI/CD 工具整合，使得自動化佈署和測試更加高效。

  graph TD
    A[安全組態] --> B[系統整合]
    B --> C[自動化佈署]
    C --> D[監控應用]

此圖示展示了在企業級應用中使用 Ray 的工作流程。從安全組態開始，經過系統整合、自動化佈署，最終進行監控應用。

內容解密：

安全組態：設定 Ray 的安全策略，確保資料和應用受到保護。
系統整合：與現有系統進行整合，例如 CI/CD 工具。
自動化佈署：自動化佈署流程，減少人工干預。
監控應用：持續監控應用執行狀態，及時發現和解決問題。

推動未來技術發展

隨著大語言模型和其他先進技術的興起，Ray 的重要性將進一步提升。它提供了一個靈活且強大的平台來支援未來技術的發展和應用。

未來趨勢與預測

未來，隨著技術的不斷進步，Ray 預計將在更多領域中發揮重要作用。例如，隨著量子計算技術的發展，Ray 可能會提供對量子計算硬體的支援。

  graph TD
    A[量子計算支援] --> B[AI 模型訓練]
    B --> C[大資料處理]
    C --> D[實時資料分析]

此圖示展示了未來 Ray 在不同領域中的應用趨勢。從量子計算支援開始，經過 AI 模型訓練、大資料處理以及實時資料分析。

內容解密：

量子計算支援：提供對量子計算硬體的支援。
AI 模型訓練：支援大規模 AI 模型的訓練。
大資料處理：高效處理海量資料。
實時資料分析：提供實時資料分析能力。

探索用 Ray 進行 Python 機器學習擴充套件

玄貓為開發者與資料科學家撰寫這本文，目的是幫助他們在不必成為系統管理員的情況下，利用 Python 建立並擴充套件應用程式。這本文最適合個人或團隊，他們正面臨從單執行緒解決方案轉向多執行緒，甚至是分散式計算的問題複雜性與規模擴充套件的挑戰。

儘管可以從 Java 使用 Ray，但本文是以 Python 為基礎，並假設讀者對 Python 生態系統有一定的熟悉度。如果你對 Python 不熟悉，可以參考 Mark Lutz 的《Learning Python》以及 Wes McKinney 的《Python for Data Analysis》。

無伺服器（Serverless）是一個常見的術語，儘管名稱中有「無伺服器」，但這種模型其實涉及大量的伺服器。不過，無伺服器的理念在於你不必明確管理這些伺服器。對許多開發者和資料科學家來說，不必擔心伺服器細節就能自動擴充套件的承諾非常吸引人。然而，如果你喜歡深入瞭解伺服器、佈署機制和負載平衡器等細節，這本文可能不是你所需要的——但希望你能推薦給你的同事。

本文內容

在閱讀這本文後，你將學會如何利用現有的 Python 技能來使程式超越單一機器的限制。你將學習分散式計算技術，從遠端程式呼叫到行為（actor），再到分散式資料集和機器學習。最後，我們將在附錄 A 中提供一個「真實」的例子，使用多種技術來建立可擴充套件的後端，並與根據 Python 的網頁應用程式整合，並在 Kubernetes 上佈署。

責任提醒

正如那句名言「權力越大，責任越大」。Ray 和類別似工具使你能夠建立更複雜的系統來處理更多資料和使用者。重要的是不要因為解決問題有趣而忘記問自己這些決定會產生什麼影響。

你不用搜尋很久就能找到一些工程師和資料科學家因為善意而意外建立模型或工具，導致破壞性影響的故事。例如破壞了美國退伍軍人事務部新支付系統或僱傭演算法根據性別進行歧視。玄貓希望你在使用新能力時保持謹慎。

本文使用的約定

以下是本文中使用的排版約定：

斜體：表示新詞彙、網址、電子郵件地址、檔案名稱和檔案副檔名。
等寬字型：用於程式碼清單及段落中指稱程式元素（例如變數或函式名稱）、資料函式庫、資料型別、環境變數、陳述和關鍵字。
等寬斜體：顯示應由使用者提供或由上下文決定值取代的文字。
提示：表示建議或技巧。
一般註記：表示一般註記。
警告或注意：表示警告或注意事項。

許可證

這本文一旦以印刷形式出版並排除 O’Reilly 傑出設計元素（例如封面藝術、設計格式、「看起來像」）或 O’Reilly 的商標、服務標誌和商號，則根據「創作分享署名-非商業性使用-禁止衍生作品 4.0 國際公共授權」提供。我們感謝 O’Reilly 允許我們以創作分享授權提供此書籍。我們希望您選擇透過公司經費購買多份書籍來支援此書籍（以及作者）。這使其成為未來即將到來的任何假期的理想禮物。

使用程式碼範例

Scaling Python Machine Learning GitHub 儲存函式庫包含此書籍中的大部分範例。此書籍中的大多數範例位於 ray_examples 目錄中。與 Dask on Ray 相關的範例在 dask 目錄中找到，而使用 Spark on Ray 的範例則在 spark 目錄中。

如果您有技術問題或在使用這些程式碼範例時遇到問題，請傳送電子郵件至 bookquestions@oreilly.com。

每個程式碼範例後必須加上「#### 內容解密：」標題

內容解密：

這部分將詳細解釋每個程式碼範例背後的邏輯和設計考量。每一行程式碼都將被逐項詳細說明其作用、觀念及邏輯結構。

# 請以真實且完整程式碼片段取代以下內容
import ray

# 初始化 Ray
ray.init()

@ray.remote
def my_function(x):
    return x * x

# 執行遠端函式
result = my_function.remote(5)
print(ray.get(result))  # 輸出結果：25

小段落標題：Ray 初始化與遠端函式呼叫

在上面的程式碼片段中，「ray.init()」用於初始化 Ray 框架。「@ray.remote」裝飾器將函式轉換為遠端可執行函式。「my_function.remote(5)」則是透過 Ray 框架進行非同步呼叫。「ray.get(result)」則用來取回遠端函式執行結果。

透過以上方式可以將計算任務分散至多個工作節點上執行，提升計算效率和資源利用率。

玄貓強烈建議您親自動手嘗試並修改這些範例程式碼以加深理解。如果您有任何疑問或需要進一步解釋，請參考相關檔案或尋求社群幫助。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。