資料工程

112 Articles

資料驗證模式與結構描述應用

2024年10月28日 – 12 分鐘閱讀

本文探討資料驗證的重要性，並深入解析 Spark 資料驗證模式 `PERMISSIVE`、`DROPMALFORMED` 和 `FAILFAST` 的應用場景與程式碼範例。同時，文章也詳細說明如何利用結構描述（Schema）定義資料結構、約束條件，以及如何建立和維護結構描述，確保資料品質和可靠性，提升資料分析效率。

AWS 資料轉換服務與協調工具

2024年10月27日 – 8 分鐘閱讀

本文介紹 AWS 提供的資料轉換服務，包含輕量級的 AWS Lambda 與無伺服器的 AWS Glue，並探討如何使用這些服務進行資料處理和轉換。同時也介紹了 AWS Glue Data Catalog 與 AWS Glue 爬蟲，以及如何使用 AWS Glue 工作流程和 AWS Step Functions

Delta Live Tables 資料品質管理

2024年10月25日 – 9 分鐘閱讀

本文探討如何使用 Delta Live Tables (DLT) 管理資料品質，包含定義資料驗證規則、處理失敗預期、套用多個資料品質預期以及將資料驗證規則與 DLT 管道分離等技巧。文章以計程車行程資料為例，示範如何使用 DLT 的 expectations 功能實作資料品質管理，並提供程式碼範例和詳細說明。

從資源配置到資料布局的Spark性能優化策略

2024年10月20日 – 12 分鐘閱讀

本文深入探討 Apache Spark 的性能調優策略，將其視為一門結合資源配置與資料布局的藝術與科學。內容涵蓋如何合理配置執行器、核心、記憶體、磁碟與網路等計算資源，以預防 Shuffle 溢出等性能瓶頸。同時，文章也剖析資料傾斜的成因與診斷方法，並介紹廣播連接、加鹽及自適應查詢執行（AQE）等緩解技術。最後，強調透過分區與索引等資料布局策略，實現高效能與成本效益的平衡。

串流資料擷取與處理比較 Kinesis 與 Kafka

2024年10月14日 – 12 分鐘閱讀

本文比較了 Amazon Kinesis 和 Amazon MSK（Kafka）在串流資料擷取和處理方面的差異，並提供實務上的考量。Kinesis 作為無伺服器服務，設定簡便快速，適合入門；MSK 則提供更多組態選項，適合需要精細調校的場景。文章也涵蓋了使用 AWS DMS 將資料從 MySQL 遷移至 S3

資料管線模組化設計與依賴反轉

2024年10月13日 – 7 分鐘閱讀

本文探討在資料處理流程中應用模組化設計和依賴反轉原則，提升程式碼彈性、可維護性和可擴充套件性。文章以 Python 和 PySpark 為例，示範如何將資料儲存抽象化，並透過依賴注入實作多雲平台支援。此外，文章也涵蓋瞭如何透過模擬物件簡化單元測試，以及如何根據佈署環境動態選擇儲存機制。

資料載入資料集市實務最佳化

2024年10月09日 – 14 分鐘閱讀

本文探討如何將資料載入 Amazon Redshift 並執行查詢，包含建立實體化檢視以最佳化查詢效能，以及使用 AWS Step Function 協調資料管線，涵蓋核心概念、技術需求、失敗處理、日誌記錄及重試策略等實務操作與最佳化技巧。

資料管道單元測試與模擬技術

2024年10月03日 – 10 分鐘閱讀

本文探討在資料管道中實施單元測試的重要性，並詳細介紹如何識別和模擬依賴項，以提高測試效率和程式碼品質。文章涵蓋了使用 Python unittest.mock 和 responses 函式庫進行 API 請求模擬、測試重試邏輯，以及結合 pytest fixtures 測試雲端服務互動等實務技巧。

Python ETL 工具與 AWS 雲端服務應用

2024年10月03日 – 12 分鐘閱讀

本文探討 Python ETL 工具 Luigi 和 Airflow 的應用，以及 AWS 雲端服務在 ETL 處理流程中的關鍵角色。文章涵蓋 Luigi 和 Airflow 的主要功能、安裝使用方式、ETL 管線重構案例，並深入剖析 AWS 免費層級資源的運用，以及 S3、EC2、RDS、Redshift、Glue

資料湖倉架構設計與AWS實作

2024年09月26日 – 13 分鐘閱讀

本文探討現代資料管理架構，比較資料倉儲和資料湖的特性，並深入解析資料湖的儲存層設計與資料流動。同時，文章也介紹了湖倉一體架構的興起，以及如何在 AWS 上利用 Redshift Spectrum 和 Lake Formation 等服務實作資料湖倉，並提供程式碼範例示範如何使用 AWS Glue 和 Spark

自動化機器學習流程與佈署實踐

2024年09月19日 – 10 分鐘閱讀

本文介紹如何使用 PySpark 建立自動化機器學習流程，並以客戶流失預測為例，涵蓋資料處理、特徵選擇、模型訓練、評估和佈署等環節。文章詳細說明瞭 Docker 容器化佈署和即時評分 API 的實作，並提供程式碼範例和 Postman API 測試方法，展現了機器學習模型從開發到佈署的完整生命週期。

Python建構企業級ETL流程與最佳實踐

2024年09月15日 – 14 分鐘閱讀

本文探討使用 Python 建構企業級 ETL 流程的現代化方法，涵蓋從資料提取、轉換到載入的完整流程，並提供程式碼範例和最佳實踐，協助您開發高效、可擴充套件的 ETL 解決方案。同時，文章也探討瞭如何運用 Python 的豐富生態系，包括 Pandas、SQLAlchemy 和 Apache Airflow

資料屬性與擷取策略

2024年09月03日 – 12 分鐘閱讀

本文探討資料工程中資料來源的五大屬性：資料型別、資料量、資料速度、資料真實性與資料價值，並分析如何根據這些屬性選擇合適的資料擷取策略與工具，例如 AWS DMS、AWS Glue

本文探討如何運用 Deequ 函式庫實現自動化資料品質管理。首先，透過 `ConstraintSuggestionRunner` 分析 Spark DataFrame，Deequ 能自動剖析資料並建議適當的品質約束規則，簡化初始設定。接著，文章展示如何使用 `VerificationSuite` 定義明確的約束條件，例如完整性、值域包含與非負數檢查。執行驗證後，系統會回報成功或失敗的約束，並可將收集到的資料品質指標持久化至記憶體或檔案系統儲存庫，以便進行長期的趨勢分析與監控，從而建立一套穩健的資料驗證框架。

資料倉儲演變與資料湖倉架構

2024年08月25日 – 15 分鐘閱讀

本文探討資料管理架構的演變，從傳統資料倉儲到現代資料湖倉，涵蓋大資料處理技術的興起、雲端資料管理的影響，以及資料湖和資料湖倉架構的出現與優勢。同時，文章深入比較了資料倉儲與資料市集的核心概念、維度建模方法，以及ETL和ELT資料管道的實作方式，並提供程式碼範例說明。

雲端安全事件回應與資料起源追蹤技術

2024年08月25日 – 4 分鐘閱讀

本文探討雲端環境中安全事件回應和資料起源追蹤的最佳實務與案例研究，涵蓋 Google Cloud Security Command Center 和 Azure Data Factory 等工具的應用，並分析如何利用機器學習增強事件檢測和歸因的效率，同時探討區塊鏈技術在提升起源資料信任度和安全性方面的潛力。

Python開發環境與ETL資料管道建構

2024年08月24日 – 13 分鐘閱讀

本文介紹如何使用 Python 建構 ETL 資料管道，涵蓋開發環境設定、依賴管理、迴圈依賴問題、模組管理系統、ETL 流程與資料管道型別，並提供程式碼範例說明 ETL 的三個階段：擷取、轉換和載入。

建構強健 ETL 管線處理美國建築資料

2024年08月23日 – 8 分鐘閱讀

本文介紹如何建構一個強健的 ETL 管線，使用 AWS 上的美國建築市場資料，並搭配 PostgreSQL 和 Redshift 資料函式庫進行資料處理。文章涵蓋了從設定檔、ETL 指令碼到單元測試的完整流程，以及如何使用 boto3 與 AWS S3 互動、利用 pandas 進行資料轉換，並使用

Snowflake 半結構化資料處理完全指南

2024年08月22日 – 11 分鐘閱讀

深入探討 Snowflake 雲端資料倉儲中處理半結構化資料的完整技術。本文詳細說明 JSON 資料的查詢策略、FLATTEN 函式的進階應用、VARIANT 資料型別的特性、巢狀結構的解析技巧、資料聚合方法,以及 JSON 格式的生成與轉換,協助資料工程師充分發揮 Snowflake 處理彈性資料的強大能力。

資料管線單元測試實務應用

2024年08月20日 – 9 分鐘閱讀

本文探討在資料管線中實施單元測試的關鍵環節，涵蓋資料驗證、轉換、連線測試以及可觀測性測試等導向。文章以 Python 程式碼範例說明如何使用 Mock 物件模擬外部依賴，並示範如何運用 Tenacity 函式庫實作重試機制，以及 Responses 函式庫模擬 API

dbt 專案結構與模型建置最佳實務

2024年08月06日 – 11 分鐘閱讀

本文探討 dbt 專案的最佳結構與模型建立方法，包含目錄結構、YAML 設定檔、模型分層、來源管理以及 BigQuery 連線設定等關鍵導向，並以 Jaffle Shop 資料函式庫為例，示範如何建立 Staging、Intermediate 和 Marts 層級的模型，以及如何運用 dbt

Snowflake 字串與數值資料處理技巧

2024年07月27日 – 9 分鐘閱讀

本文介紹 Snowflake 中常用的字串與數值處理函式，包含字串清理、替換、搜尋、提取以及數值計算、轉換、日期和時間戳記操作等技巧，並搭配 SQL 語法和範例說明，幫助讀者有效地運用 Snowflake 進行資料處理和分析。

KsqlDB 串流處理與資料整合實戰

2024年07月15日 – 11 分鐘閱讀

本文探討 ksqlDB 的核心功能，包含啟動 ksqlDB 伺服器、使用 ksqlDB CLI 提交查詢、建模資料以及整合 Kafka Connect 進行串流 ETL。文章詳細說明瞭如何組態 Kafka Connect，以及如何在外部模式和嵌入模式下整合 ksqlDB。同時也涵蓋了 Kafka Connect

Argo Workflows 整合 Spark 實現自動化資料管道編排

2024年07月14日 – 6 分鐘閱讀

本文闡述如何運用 Argo Workflows 在 Kubernetes 環境中編排 Apache Spark 應用程式，以建構自動化的資料管道。內容涵蓋透過 Spark Operator 在 Kubernetes 上部署 Spark 作業的基礎設定，並進一步展示如何定義 Argo Workflow，利用其 Resource 模板動態創建 SparkApplication 資源。此方法將獨立的 Spark 作業整合至一個具備相依性管理的有向無環圖（DAG）工作流程中，實現了從任務啟動、執行到完成的端對端自動化管理，為複雜的資料處理提供了一套雲原生的解決方案。