數據工程本地開發環境建置實務指南

在數據工程的實踐旅程中，建立一個穩定且高效的本地開發環境是不可或缺的基礎。此階段不僅是安裝工具，更是為了模擬真實數據處理情境，讓開發者能在受控環境中進行迭代、測試與除錯。本文將深入探討 Apache Spark、Docker 與整合開發環境的具體設定細節。一個精準配置的本地環境，能顯著降低後續開發與部署的複雜性，為掌握大規模數據處理技術奠定堅實的基石。

數據工程高科技養成：從理論到實踐的玄貓指引

本地環境建置：掌控開發細節

安裝整合開發環境 (IDE)

VS Code

gpgkey=https://packages.microsoft.com/keys/microsoft.asc
baseurl=https://packages.microsoft.com/yumrepos/vscode
ADDREPO
#安裝程式碼
sudo dnf install code

如果讀者使用的是Debian 10，可以運行以下命令來安裝VS Code：

#安裝依賴項
sudo apt install gnupg2 software-properties-common apt-transport-https curl
#導入 GPG 密鑰
apt-key add -
#添加軟體庫
com/repos/vscode stable main"

#安裝程式碼
sudo apt install code

最後，VS Code也作為Snap套件提供。如果讀者沒有安裝Snap，請參考相關說明。一旦安裝了Snap，讀者可以透過以下方式安裝VS Code：

sudo snap install code --classic

Metals擴充功能

要在VS Code中使用Scala，玄貓需要安裝Metals擴充功能。為此，打開VS Code，按下Ctrl + P，在搜尋欄中貼上以下命令，然後按下Enter：

ext install scalameta.metals

Docker

Docker是一個開源的容器化技術，用於建構和容器化應用程式。玄貓建議讀者在機器上安裝Docker社群版 (Docker CE)。請注意，Docker引擎已更名為Docker CE。根據讀者的作業系統，請遵循Docker文件中概述的步驟來安裝Docker CE：

macOS安裝指南：https://docs.docker.com/desktop/install/mac-install/

在下一節中，玄貓將介紹設定本地Spark實例的步驟，包括下載二進位檔案，但讀者也可以選擇使用Docker容器創建Spark叢集。

Spark

讀者可能希望在本地安裝Spark。Spark運行在JVM上。如果讀者的機器沒有安裝Java，讀者可能需要檢查「建構工具」部分中概述的步驟。玄貓將使用Apache Spark 3.3.1預建置版本，適用於Hadoop 3.3作為安裝說明。二進位套件可在官方網站下載。

Windows

為了在Windows機器上配置Spark，請遵循以下概述的步驟：

前往Spark官方下載頁面，並選擇Spark 3.3.1預建置版本，適用於Hadoop。選擇後，選項3下的連結將自動填充。點擊該連結：

此圖示：Spark下載頁面

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "Apache Spark 下載頁面" as SparkDownloadPage {
component "步驟 1: 選擇 Spark 版本" as Step1
component "步驟 2: 選擇預建置套件" as Step2
component "步驟 3: 下載連結" as Step3
component "下載按鈕" as DownloadBtn

Step1 -down-> Step2 : 選擇 "3.3.1"
Step2 -down-> Step3 : 選擇 "預建置 for Hadoop 3.3"
Step3 -down-> DownloadBtn : 顯示下載連結
}
@enduml

看圖說話：

此圖示展示了Apache Spark的官方下載頁面。使用者需要按照頁面上的指引，分步驟選擇所需的Spark版本和預建置套件。首先，在「步驟1」中選擇特定的Spark版本，例如「3.3.1」。接著，在「步驟2」中選擇與Hadoop版本兼容的預建置套件，例如「預建置 for Hadoop 3.3」。完成這些選擇後，「步驟3」將自動生成對應的下載連結。最後，點擊「下載按鈕」即可獲取Spark的二進位發行版。這個流程確保使用者能夠下載到與其環境需求相符的Spark版本。

點擊任何提供的連結以下載Spark 3.3.1，檔案名為spark-3.3.1-bin-hadoop3.tgz的檔案應該會自動下載。
比較雜湊值以檢查檔案的完整性：

>cd %HOMEDRIVE%%HOMEPATH%\Downloads
>curl --output spark-3.3.1-bin-hadoop3.tgz.sha512 --url https://
tgz.sha512
>type spark-3.3.1-bin-hadoop3.tgz.sha512
769db39a560a95fd88b58ed3e9e7d1e92fb68ee406689fb4d30c033cb-
5911e05c1942dcc70e5ec4585df84e80aabbc272b9386a208debda89522efff-
1335c8ff spark-3.3.1-bin-hadoop3.tgz
>certutil -hashfile spark-3.3.1-bin-hadoop3.tgz SHA512
SHA512 hash of spark-3.3.1-bin-hadoop3.tgz:
769db39a560a95fd88b58ed3e9e7d1e92fb68ee406689fb4d30c033cb-
5911e05c1942dcc70e5ec4585df84e80aabbc272b9386a208debda89522efff-
1335c8ff
CertUtil: -hashfile command completed successfully.

在C:磁碟機中創建一個名為Spark的目錄：

C:\>mkdir Spark
C:\>cd Spark

使用檔案壓縮軟體（如7-Zip）將.tar檔案解壓縮到Spark資料夾。
配置環境變數：

此圖示：新增系統環境變數

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "系統內容" as SystemProperties {
rectangle "環境變數" as EnvironmentVariables {
component "新增系統變數" as NewSystemVarBtn
component "變數名稱: SPARK_HOME" as VarName
component "變數值: C:\Spark\spark-3.3.1-bin-hadoop3" as VarValue
component "確定按鈕" as OKBtn
}
NewSystemVarBtn -down-> VarName
VarName -down-> VarValue
VarValue -down-> OKBtn
}
@enduml

看圖說話：

此圖示展示了在Windows系統中新增系統環境變數的步驟。使用者需要進入「系統內容」中的「環境變數」設定介面。在這裡，點擊「新增系統變數」按鈕，然後填寫變數名稱為SPARK_HOME，變數值為Spark的安裝路徑，例如C:\Spark\spark-3.3.1-bin-hadoop3。這個環境變數的設定對於Spark的正常運行至關重要，因為許多Spark腳本會依賴SPARK_HOME來定位其安裝目錄。完成設定後，點擊「確定」保存變數。

更新Path使用者變數以添加%SPARK_HOME%\bin：

此圖示：新增使用者環境變數Path

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "系統內容" as SystemProperties {
rectangle "環境變數" as EnvironmentVariables {
component "編輯使用者變數 Path" as EditUserPathBtn
component "新增路徑: %SPARK_HOME%\bin" as NewPathEntry
component "確定按鈕" as OKBtn
}
EditUserPathBtn -down-> NewPathEntry
NewPathEntry -down-> OKBtn
}
@enduml

看圖說話：

此圖示描繪了在Windows系統中更新使用者環境變數Path的過程。使用者同樣需要進入「環境變數」設定介面，找到「使用者變數」區塊中的Path變數，並點擊「編輯」。在編輯Path變數的對話框中，使用者需要新增一個新的路徑條目，即%SPARK_HOME%\bin。這樣做的目的是將Spark的可執行檔目錄添加到系統的搜尋路徑中，使得使用者可以直接在命令提示字元或PowerShell中運行Spark相關的命令，而無需指定完整的路徑。完成後，點擊「確定」保存變更。

確保JAVA_HOME環境變數不包含任何空格。如果讀者安裝了JDK 8，讀者可能會看到JAVA_HOME設定為類似以下的路徑：

C:\Program Files (x86)\Eclipse Adoptium\jdk-8.0.352.8-hotspot.

目錄名稱中的這些嵌入式空格很可能會導致spark-shell無法正常工作。為了避免這種情況，請在C:目錄中創建一個名為Java的目錄，並將JDK移動到Java目錄。更新JAVA_HOME指向C:\Java\jdk-8.0.352.8-hotspot\。此外，更新Path系統變數以指向新目錄，如下所示：

此圖示：更新JAVA_HOME以避免路徑空格問題

@startuml
!define DISABLE_LINK
!define PLANTUML_FORMAT svg
!theme _none_

skinparam dpi auto
skinparam shadowing false
skinparam linetype ortho
skinparam roundcorner 5
skinparam defaultFontName "Microsoft JhengHei UI"
skinparam defaultFontSize 16
skinparam minClassWidth 100

rectangle "系統內容" as SystemProperties {
rectangle "環境變數" as EnvironmentVariables {
component "編輯系統變數 JAVA_HOME" as EditJavaHomeBtn
component "舊變數值: C:\Program Files\..." as OldJavaHome
component "新變數值: C:\Java\jdk-8.0.352.8-hotspot" as NewJavaHome
component "更新 Path 系統變數" as UpdatePath
component "確定按鈕" as OKBtn

EditJavaHomeBtn -down-> OldJavaHome
OldJavaHome -down-> NewJavaHome
NewJavaHome -down-> UpdatePath
UpdatePath -down-> OKBtn
}
}
@enduml

看圖說話：

此圖示詳細說明了在Windows環境中解決JAVA_HOME路徑中包含空格問題的關鍵步驟。由於某些應用程式（如spark-shell）在處理含有空格的路徑時可能會出錯，因此建議將JDK安裝在一個不含空格的路徑下。圖中展示了編輯系統變數JAVA_HOME的過程，將其從預設的C:\Program Files\...更改為一個更簡潔的路徑，例如C:\Java\jdk-8.0.352.8-hotspot。此外，還需要相應地更新Path系統變數，以確保系統能夠正確找到新的JDK安裝路徑。這個細節處理對於確保本地Spark環境的穩定運行至關重要。

結論：從環境建置到專業主權的奠基

縱觀現代數據工程師的養成挑戰，本地開發環境的精準建置，是衡量其專業成熟度與未來潛力的第一個關鍵指標。本文鉅細靡遺的指引，其核心價值不僅在於提供一套可執行的安裝步驟，更在於培養一種對技術細節的絕對掌控力。從VS Code擴充功能的選用、Docker容器化的前瞻佈局，到處理Spark環境變數中一個看似微不足道的路徑空格問題，正是這些細節的精準處理，區分了業餘愛好者與專業工程師，並直接決定了後續的開發效率與除錯韌性。

這種本地環境的建構能力，實則是未來駕馭複雜雲端分散式架構的縮影與基礎訓練。一位能熟練掌握本地Spark、Docker與IDE協同運作的工程師，在面對AWS EMR、GCP Dataproc等託管服務時，將具備更深刻的系統洞察力與問題診斷能力。這種從底層實踐中建立起的技術直覺，是任何速成課程都無法取代的核心資產。

玄貓認為，數據工程師的卓越成就，始於對自身工具鏈的完全主權。將環境配置視為一項持續優化的策略性投資，而非一次性的繁瑣任務，正是從「能用」邁向「精通」的關鍵轉捩點，更是奠定長期職涯績效與技術領導力的堅實基石。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。