大數據技術

3 Articles

深入解析Spark資料轉換與進階窗口函數應用

2025年03月30日 – 10 分鐘閱讀

本文深入探討 Apache Spark 中的進階資料轉換技術。內容涵蓋如何運用 `groupBy` 與 `agg` 執行複雜的多維度聚合分析，並利用 `describe` 函數快速生成描述性統計。核心重點在於窗口函數（Window Functions）的應用，示範如何透過 `lag` 與 `lead` 進行時間序列分析，以及如何使用 `dense_rank` 實現分組排名。文章最後也闡述了 Spark 處理 JSON 等半結構化資料中巢狀陣列的強大能力，展現了從結構化到複雜資料的完整處理流程。

Docker 部署 Hadoop 環境與 MapReduce 實戰指南

2024年10月14日 – 7 分鐘閱讀

本文旨在提供一個運用 Docker 容器化技術快速部署 Apache Hadoop 環境的實務指南。內容涵蓋從下載指定鏡像、啟動容器，到進入互動式終端的操作流程。文章詳細說明如何在 Hadoop 分散式檔案系統（HDFS）中建立輸入目錄、上傳文本資料，並最終執行一個經典的 MapReduce 詞頻統計（Word

Apache Sqoop 實戰：整合 MySQL 與 Hadoop 數據流

2024年09月04日 – 8 分鐘閱讀

Apache Sqoop 為 Hadoop 生態系中的關鍵組件，專為實現關聯式資料庫（RDBMS）與 Hadoop 分散式檔案系統（HDFS）之間的大量數據傳輸而設計。其核心功能建立在 JDBC 連接之上，支援 MySQL、Oracle 等多種資料庫。Sqoop 主要提供兩大操作：`import`