資料工程基礎與 Python 應用實踐

資料工程是資料科學的基本，負責建構與維護資料基礎設施，包含資料管道、資料函式庫以及資料處理流程。本文從資料工程基本概念出發，逐步引導讀者瞭解資料工程師的角色與職責，並深入探討資料工程常用工具和技術，例如 Python、SQL、Apache Kafka、Apache Spark 和 Apache NiFi。同時，本文也涵蓋資料管道的建構、資料函式庫操作、資料清理與轉換、以及如何應用 Python 進行資料工程實務。此外，也提供 Apache NiFi 和 Airflow 的安裝設定與佈署，協助讀者建立完整的資料工程系統。

資料工程的基礎

資料工程涉及建構資料管道，以處理大量資料集。您將學習如何使用各種技術和框架來建構資料管道，包括資料轉換、資料清理和資料分析。

資料管道的建構

您將學習如何使用Python建構資料管道，包括如何處理大型和複雜的資料集。您還將學習如何使用實際案例來建構資料管道架構，並佈署資料管道。

資料模型的建立

您將學習如何使用資料模型技術來建立資料工程管道，包括如何追蹤資料、執行品品檢查和在生產環境中進行必要的變更。

目標讀者

這本章適合資料分析師、ETL開發人員和任何想要開始或轉入資料工程領域的人。這本章也適合計劃從事資料工程或IT專業的人員，無需事先了解資料工程的知識。

資料工程的重要性

資料工程是資料科學和分析的基礎，對於所有企業來說都是非常重要的。透過學習資料工程，您將能夠建立資料管道，追蹤資料，執行品品檢查和在生產環境中進行必要的變更。

資料工程概述

資料工程是一門涵蓋資料收集、儲存、處理和分析的領域。它涉及設計、建構和維護資料系統，以支援商業決策和資料驅動的應用。資料工程師需要具備多樣的技能，包括資料結構、資料函式倉管理、資料處理和分析。

資料工程的核心概念

資料工程的核心概念包括：

資料收集：從各種來源收集資料，例如檔案、資料函式庫和API。
資料儲存：將收集到的資料儲存到適合的資料函式庫或儲存系統中。
資料處理：對收集到的資料進行處理和轉換，例如資料清理、資料轉換和資料聚合。
資料分析：對處理後的資料進行分析和視覺化，例如使用統計方法、機器學習演算法和資料視覺化工具。

資料工程的工具和技術

資料工程的工具和技術包括：

資料函式倉管理系統：例如MySQL、PostgreSQL和ElasticSearch。
資料處理框架：例如Apache NiFi、Apache Beam和Apache Spark。
資料分析函式庫：例如Pandas、NumPy和Matplotlib。
機器學習函式庫：例如Scikit-learn、TensorFlow和PyTorch。

資料工程的應用

資料工程的應用包括：

商業智慧：使用資料工程技術建立商業智慧系統，支援商業決策。
資料科學：使用資料工程技術建立資料科學平臺，支援資料分析和機器學習。
物聯網：使用資料工程技術建立物聯網系統，支援裝置資料的收集、處理和分析。

建立資料工程基礎設施

建立資料工程基礎設施需要安裝和組態各種工具和技術，例如：

資料函式倉管理系統：例如MySQL、PostgreSQL和ElasticSearch。
資料處理框架：例如Apache NiFi、Apache Beam和Apache Spark。
資料分析函式庫：例如Pandas、NumPy和Matplotlib。

安裝和組態工具

安裝和組態工具需要按照以下步驟進行：

安裝資料函式倉管理系統：例如MySQL、PostgreSQL和ElasticSearch。
安裝資料處理框架：例如Apache NiFi、Apache Beam和Apache Spark。
安裝資料分析函式庫：例如Pandas、NumPy和Matplotlib。
組態工具：例如組態資料函式庫連線、組態資料處理任務和組態資料分析模型。

讀寫檔案和資料管道

讀寫檔案和資料管道是資料工程的核心任務。檔案可以是各種格式，例如CSV、JSON和Avro。資料管道可以是各種形式，例如批次處理、實時處理和串流處理。

讀寫檔案

讀寫檔案需要使用適合的函式庫和框架，例如：

CSV檔案：可以使用Pandas函式庫讀寫CSV檔案。
JSON檔案：可以使用JSON函式庫讀寫JSON檔案。
Avro檔案：可以使用Avro函式庫讀寫Avro檔案。

資料管道

資料管道可以是各種形式，例如：

批次處理：可以使用Apache NiFi、Apache Beam和Apache Spark建立批次處理資料管道。
實時處理：可以使用Apache Kafka、Apache Storm和Apache Flink建立實時處理資料管道。
串流處理：可以使用Apache Kafka、Apache Storm和Apache Flink建立串流處理資料管道。

工作 với資料函式庫

工作與資料函式庫需要使用適合的函式庫和框架，例如：

MySQL：可以使用MySQL Connector函式庫連線MySQL資料函式庫。
PostgreSQL：可以使用PostgreSQL Connector函式庫連線PostgreSQL資料函式庫。
ElasticSearch：可以使用ElasticSearch函式庫連線ElasticSearch資料函式庫。

查詢資料函式庫

查詢資料函式庫需要使用適合的語言和框架，例如：

SQL：可以使用SQL語言查詢MySQL和PostgreSQL資料函式庫。
Elasticsearch DSL：可以使用Elasticsearch DSL查詢ElasticSearch資料函式庫。

插入資料到資料函式庫

插入資料到資料函式庫需要使用適合的函式庫和框架，例如：

MySQL：可以使用MySQL Connector函式庫插入資料到MySQL資料函式庫。
PostgreSQL：可以使用PostgreSQL Connector函式庫插入資料到PostgreSQL資料函式庫。
ElasticSearch：可以使用ElasticSearch函式庫插入資料到ElasticSearch資料函式庫。

清理和轉換資料

清理和轉換資料需要使用適合的函式庫和框架，例如：

Pandas：可以使用Pandas函式庫清理和轉換資料。
NumPy：可以使用NumPy函式庫清理和轉換資料。
Matplotlib：可以使用Matplotlib函式庫視覺化資料。

基本探索性資料分析

基本探索性資料分析需要使用適合的函式庫和框架，例如：

Pandas：可以使用Pandas函式庫進行基本探索性資料分析。
NumPy：可以使用NumPy函式庫進行基本探索性資料分析。
Matplotlib：可以使用Matplotlib函式庫視覺化資料。

清理和轉換資料

清理和轉換資料需要使用適合的函式庫和框架，例如：

Pandas：可以使用Pandas函式庫清理和轉換資料。
NumPy：可以使用NumPy函式庫清理和轉換資料。
Matplotlib：可以使用Matplotlib函式庫視覺化資料。

建立資料管道

建立資料管道需要使用適合的函式庫和框架，例如：

Apache NiFi：可以使用Apache NiFi建立資料管道。
Apache Beam：可以使用Apache Beam建立資料管道。
Apache Spark：可以使用Apache Spark建立資料管道。

讀取資料

讀取資料需要使用適合的函式庫和框架，例如：

Pandas：可以使用Pandas函式庫讀取資料。
NumPy：可以使用NumPy函式庫讀取資料。
Matplotlib：可以使用Matplotlib函式庫視覺化資料。

處理資料

處理資料需要使用適合的函式庫和框架，例如：

Pandas：可以使用Pandas函式庫處理資料。
NumPy：可以使用NumPy函式庫處理資料。
Matplotlib：可以使用Matplotlib函式庫視覺化資料。

寫入資料

寫入資料需要使用適合的函式庫和框架，例如：

Pandas：可以使用Pandas函式庫寫入資料。
NumPy：可以使用NumPy函式庫寫入資料。
Matplotlib：可以使用Matplotlib函式庫視覺化資料。

監控和記錄資料管道

監控和記錄資料管道需要使用適合的函式庫和框架，例如：

Apache NiFi：可以使用Apache NiFi監控和記錄資料管道。
Apache Beam：可以使用Apache Beam監控和記錄資料管道。
Apache Spark：可以使用Apache Spark監控和記錄資料管道。

監控資料管道

監控資料管道需要使用適合的函式庫和框架，例如：

Apache NiFi：可以使用Apache NiFi監控資料管道。
Apache Beam：可以使用Apache Beam監控資料管道。
Apache Spark：可以使用Apache Spark監控資料管道。

記錄資料管道

記錄資料管道需要使用適合的函式庫和框架，例如：

Apache NiFi：可以使用Apache NiFi記錄資料管道。
Apache Beam：可以使用Apache Beam記錄資料管道。
Apache Spark：可以使用Apache Spark記錄資料管道。

佈署資料管道

佈署資料管道需要使用適合的函式庫和框架，例如：

Apache NiFi：可以使用Apache NiFi佈署資料管道。
Apache Beam：可以使用Apache Beam佈署資料管道。
Apache Spark：可以使用Apache Spark佈署資料管道。

建立測試環境

建立測試環境需要使用適合的函式庫和框架，例如：

Apache NiFi：可以使用Apache NiFi建立測試環境。
Apache Beam：可以使用Apache Beam建立測試環境。
Apache Spark：可以使用Apache Spark建立測試環境。

佈署資料管道

佈署資料管道需要使用適合的函式庫和框架，例如：

Apache NiFi：可以使用Apache NiFi佈署資料管道。
Apache Beam：可以使用Apache Beam佈署資料管道。
Apache Spark：可以使用Apache Spark佈署資料管道。

未來發展

資料工程的未來發展包括：

資料科學：使用資料工程技術建立資料科學平臺，支援資料分析和機器學習。
物聯網：使用資料工程技術建立物聯網系統，支援裝置資料的收集、處理和分析。
雲端計算：使用資料工程技術建立雲端計算系統，支援資料的儲存、處理和分析。

建議

資料工程師需要具備多樣的技能，包括資料結構、資料函式倉管理、資料處理和分析。同時，資料工程師需要保持學習和更新的能力，以跟上資料工程技術的發展。

資料工程與 Python 的應用

在資料工程領域中，Python 是一個非常重要的工具。它提供了許多功能強大的函式庫和框架，能夠幫助我們處理和分析大量的資料。在這本章中，我們將探討如何使用 Python 來建構一個資料工程的系統，包括如何安裝和組態 Apache Kafka、Apache Spark 等工具。

Apache Kafka 的基礎

Apache Kafka 是一個分散式的訊息系統，能夠處理大量的資料流。它的基本概念包括 streams、topics 和 consumers。 streams 是資料的來源，topics 是資料的分類，consumers 是資料的接收者。在 Chapter 12 中，我們將學習如何安裝和組態一個三節點的 Apache Kafka 叢集。

使用 Python 來寫入和讀取 Kafka 的資料

在 Chapter 13 中，我們將學習如何使用 Python 來寫入和讀取 Kafka 的資料。我們將使用第三方的 Python 函式庫來實作這個功能。這個函式庫提供了簡單的 API，能夠讓我們輕鬆地寫入和讀取 Kafka 的資料。

Apache Spark 的基礎

Apache Spark 是一個分散式的資料處理引擎，能夠快速地處理大量的資料。在 Chapter 14 中，我們將學習如何安裝和組態一個三節點的 Apache Spark 叢集。我們將使用 Python 來操控 Spark 的資料，類似於使用 pandas 的 DataFrame。

MiNiFi 的應用

MiNiFi 是一個輕量級的資料收集工具，能夠在低資源的裝置上執行。它是 Apache NiFi 的一個子專案。在 Chapter 15 中，我們將學習如何使用 MiNiFi 來收集資料，並將它們傳送到 Apache NiFi 的例項中。

附錄：Apache NiFi 的叢集

在附錄中，我們將學習如何組態 Apache NiFi 的叢集。我們將學習如何分佈資料管道和一些注意事項。同時，我們也將學習如何讓資料管道在單一的節點上執行，而不是在叢集中執行。

如何使用這本章

要充分利用這本章，你需要有一些基本的 Python 知識，包括變數、函式和如何執行程式。你也需要有一些基本的 Linux 知識，包括如何執行命令和開啟新的終端視窗。如果你正在使用這本章的數位版本，我們建議你自己輸入程式碼或從 GitHub 倉函式庫中下載程式碼。

程式碼下載

你可以從 Packt Publishing 的 GitHub 倉函式庫中下載這本章的程式碼。倉函式庫的連結可以在下一節中找到。如果程式碼有更新，它將在現有的 GitHub 倉函式庫中更新。

圖片下載

我們也提供了一個 PDF 檔案，包含了這本章中使用的彩色圖片。你可以從以下連結下載它：

files/downloads/9781839214189_ColorImages.pdf

標準

在這本章中，我們使用了以下的標準：

程式碼：表示程式碼字串、資料函式庫表格名稱、資料夾名稱、檔案名稱、檔案副檔名、路徑名稱、虛擬 URL、使用者輸入和 Twitter 處理。
程式碼區塊：以以下方式設定：

import datetime as dt
from datetime import timedelta
from airflow import DAG
from airflow.operators.bash_operator import BashOperator
from airflow.operators.python_operator import PythonOperator

import pandas as pd

命令列輸入或輸出：以以下方式書寫：

# web properties #
nifi.web.http.port=9300

粗體：表示新的術語、重要的字或螢幕上的字。例如，選單或對話方塊中的字以以下方式出現： “點選 DAG 並選擇樹檢視。”

資料工程簡介

資料工程是一個與大資料生態系統密切相關的領域，主要負責開發、操作和維護資料基礎設施，包括資料函式庫和管道，以提取、轉換和載入資料。資料工程師在背景中工作，為資料科學提供必要的資料支援。

資料工程師的角色和職責

資料工程師的主要任務是從不同的系統或格式中提取資料，進行轉換和載入到其他系統或格式中。這個過程通常被稱為提取、轉換和載入（ETL）。資料工程師需要熟悉不同的技術，包括資料格式、資料模型和結構，並需要了解商業流程和需求。

資料工程與資料科學的區別

資料工程是資料科學的基礎，資料工程師負責提供資料科學家需要的資料。資料工程師和資料科學家使用類似的工具，但專注於不同的領域。資料工程師需要了解資料格式、模型和結構，以高效地運輸資料，而資料科學家則使用這些工具來建立統計模型和進行數學計算。

資料工程的工具和技術

資料工程師使用各種工具和技術，包括Python、SQL、Apache NiFi和Apache Airflow等。這些工具幫助資料工程師提取、轉換和載入資料，並建立和維護資料管道。

資料工程的未來

隨著資料科學和人工智慧的發展，資料工程的重要性將越來越大。資料工程師需要不斷學習和更新自己的技能，以滿足新的技術和商業需求。

內容解密：

上述內容簡要介紹了資料工程的基本概念、資料工程師的角色和職責、資料工程與資料科學的區別，以及資料工程的工具和技術。這些內容為資料工程的基礎知識提供了全面性的概覽。

# 資料工程師的基本任務
def extract_data(source):
    # 從資料源中提取資料
    data = source.get_data()
    return data

def transform_data(data):
    # 對資料進行轉換
    transformed_data = data.transform()
    return transformed_data

def load_data(transformed_data, target):
    # 將轉換後的資料載入到目標系統
    target.load_data(transformed_data)

圖表翻譯：

  graph LR
    A[資料源] -->|提取|> B[資料]
    B -->|轉換|> C[轉換後的資料]
    C -->|載入|> D[目標系統]

這個圖表展示了資料工程師的基本任務，包括提取、轉換和載入資料。這個過程是資料工程的核心，幫助資料科學家獲得所需的資料。

資料工程工具

資料工程師需要選擇合適的工具來建立資料管道。資料工程是大資料生態系統的一部分，需要考慮大資料的三個V：體積、多樣性和速度。

程式語言

資料工程的通用語言是SQL。無論使用低程式碼工具還是特定的程式語言，幾乎所有資料工程師都需要了解SQL。掌握SQL可以幫助資料工程師最佳化查詢速度和進行資料轉換。SQL在資料工程中非常普遍，即使是資料湖和非SQL資料函式庫，也有工具可以讓資料工程師使用SQL進行查詢。

許多開源資料工程工具使用Java和Scala（Apache專案）。Java是一種流行的、主流的、物件導向程式語言。雖然存在爭議，但Java正在被逐漸取代。Scala是一種在JVM上執行的語言。其他在JVM上執行的語言包括Clojure和Groovy。

本章著重於使用Python進行資料工程。Python具有豐富的標準函式庫和第三方函式庫，且其資料科學環境在其他語言中無人能及。如pandas、matplotlib、numpy、scipy、scikit-learn、tensorflow、pytorch和NLTK等函式庫組成了強大的資料工程和資料科學環境。

資料函式庫

在大多數生產系統中，資料會儲存在關係型資料函式庫中。最常用的關係型資料函式庫包括Oracle、Microsoft SQL Server、MySQL和PostgreSQL。這些資料函式庫以行儲存資料，適合記錄交易，並且之間存在關係，使用主鍵連線不同表格的資料。

資料處理引擎

資料處理引擎允許資料工程師轉換資料，無論是批次還是流式處理。最受歡迎的引擎是Apache Spark。Apache Spark允許資料工程師使用Python、Java和Scala編寫轉換。

資料管道

結合事務資料函式庫、程式語言、處理引擎和資料倉函式庫可以建立資料管道。例如，從資料函式庫中選擇所有小工具銷售記錄，使用Spark減少資料，然後將結果傾倒到資料倉函式庫中，形成了一個管道。

Apache Airflow

Apache Airflow是Python中構建資料工程管道的最受歡迎框架。Airflow是一個工作流程管理平臺，包括網頁伺服器、排程器、後設資料儲存、佇列系統和執行器。

Apache NiFi

Apache NiFi是另一種構建資料工程管道的框架，同樣使用有向非迴圈圖（DAG）。Apache NiFi易於設定和使用，具有優秀的圖形使用者介面，可以使用Jython、Clojure、Scala或Groovy編寫處理器。

安裝和設定Apache NiFi

Apache NiFi是一種強大的工具，用於建立資料工程管道。它允許您使用預先構建的處理器來構建資料管道，您可以根據自己的需求進行組態。您無需編寫任何程式碼即可讓NiFi管道執行。它還提供了一個排程器，讓您可以設定管道執行的頻率。此外，它還可以處理背壓，如果一個任務執行速度快於另一個任務，您可以減慢任務的速度。

從技術架構視角來看，建構穩固的資料工程基礎設施需要整合多種工具和技術。本文深入探討了資料工程的核心概念、工具、技術以及如何運用 Python 建構資料管道，涵蓋了從資料收集、儲存、處理到分析的完整流程。尤其著重於 Apache Kafka、Apache Spark、Apache NiFi 和 Apache Airflow 等關鍵技術的應用，並以實務案例說明如何建構、監控、記錄和佈署資料管道。然而，技術選型並非一蹴可幾，需考量企業規模、資料量級和業務需求等因素。此外，資料安全、隱私保護和合規性也是資料工程實務中不可忽視的挑戰。展望未來，隨著雲端運算、邊緣運算和機器學習等技術的快速發展，資料工程將持續演進，朝向更自動化、智慧化和實時化的方向邁進。玄貓認為，掌握 Python 搭配相關工具及框架，並持續關注新興技術趨勢，將是資料工程師保持競爭力的關鍵。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。