大數據技術

3 Articles

深入解析Spark資料轉換與進階窗口函數應用

本文深入探討 Apache Spark 中的進階資料轉換技術。內容涵蓋如何運用 `groupBy` 與 `agg` 執行複雜的多維度聚合分析,並利用 `describe` 函數快速生成描述性統計。核心重點在於窗口函數(Window Functions)的應用,示範如何透過 `lag` 與 `lead` 進行時間序列分析,以及如何使用 `dense_rank` 實現分組排名。文章最後也闡述了 Spark 處理 JSON 等半結構化資料中巢狀陣列的強大能力,展現了從結構化到複雜資料的完整處理流程。

Docker 部署 Hadoop 環境與 MapReduce 實戰指南

本文旨在提供一個運用 Docker 容器化技術快速部署 Apache Hadoop 環境的實務指南。內容涵蓋從下載指定鏡像、啟動容器,到進入互動式終端的操作流程。文章詳細說明如何在 Hadoop 分散式檔案系統(HDFS)中建立輸入目錄、上傳文本資料,並最終執行一個經典的 MapReduce 詞頻統計(Word

Apache Sqoop 實戰:整合 MySQL 與 Hadoop 數據流

Apache Sqoop 為 Hadoop 生態系中的關鍵組件,專為實現關聯式資料庫(RDBMS)與 Hadoop 分散式檔案系統(HDFS)之間的大量數據傳輸而設計。其核心功能建立在 JDBC 連接之上,支援 MySQL、Oracle 等多種資料庫。Sqoop 主要提供兩大操作:`import`