告別Kubernetes：15小時完成Nomad遷移實戰分享

今天就來分享一個真實案例，說明為什麼有時候「輕量化」才是更明智的選擇。

原有架構的困境

在接手這個專案時，團隊使用的是相當典型的Kubernetes架構：一個 v1.24.4 的主節點搭配兩個 v1.25.1 的工作節點，並採用自建的 GitLab 進行版本控制。整個CI/CD流程依賴 GitLab Runner 建置映像檔，再佈署到 Kubernetes 叢集中。

表面上看起來這是個相當標準的架構，但實際運作卻暴露出不少問題：

節點經常無預警失去連線
佈署流程時常卡住
Pod 不定期當機
維護成本遠超過預期

為了維持服務穩定，團隊不得不將四個重要服務改用獨立的 Docker 主機佈署，但這只是治標不治本的權宜之計。

Kubernetes：過猶不及的選擇

身為一個10人的精實團隊，選擇 Kubernetes 其實是把問題複雜化了。雖然使用 Helm 確實簡化了佈署流程，但整體維護的工作量依然龐大：

# 一個典型的Kubernetes佈署設定
apiVersion: apps/v1
kind: Deployment
metadata:
  name: sample-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: sample-app
  template:
    metadata:
      labels:
        app: sample-app
    spec:
      containers:
      - name: sample-app
        image: sample-app:latest
        resources:
          limits:
            memory: "128Mi"
            cpu: "500m"

這個設定檔展示了 Kubernetes 的複雜性，即使是簡單的應用程式佈署也需要大量的 YAML 設定
每個佈署都需要定義詳細的資源限制、標籤選擇器等
維護這些設定檔案本身就是一項挑戰，特別是當服務數量增加時

隨著時間推移，團隊發現自己花在處理基礎架構問題的時間遠超過開發新功能的時間。這顯然與我們精簡高效的團隊理念背道而馳。

Nomad：柳暗花明的轉機

在深入研究各種替代方案後，玄貓特別注意到 Nomad 這個選項。從 Cloudflare 和 Trivago 等大型企業的成功案例中，我們看到了希望。Nomad 的簡單直觀特性正是小型團隊所需要的。以下是 Nomad 的一個基本工作設定範例：

job "api-server" {
  datacenters = ["dc1"]
  type = "service"

  group "api" {
    count = 2

    task "server" {
      driver = "docker"
      
      config {
        image = "api-server:latest"
        ports = ["http"]
      }

      resources {
        cpu    = 500
        memory = 256
      }
    }
  }
}

Nomad 的設定檔相較於 Kubernetes 更加直觀
使用 HCL（HashiCorp Configuration Language）語法，更容易理解和維護
設定結構更加扁平，減少了不必要的複雜度
資源設定更加清晰，直接指定 CPU 和記憶體需求

這種簡潔的設定方式讓團隊成員能夠快速上手，不需要投入大量時間學習複雜的概念和工具。

在尋找理想的容器管理方案時，玄貓發現許多團隊都面臨著相似的困擾：需要一個比 pm2 更強大的工具，能同時支援多節點、Docker 容器和二進位檔案佈署。在多年的技術諮詢經驗中，我觀察到 Nomad 常成為這類別需求的絕佳解決方案。讓我們探討 Nomad 與容器協調領域巨擘 Kubernetes 的關鍵差異。

架構複雜度的根本差異

在協助客戶建置容器管理平台時，我經常用這個比喻來解釋：Kubernetes 就像一座繁華的大都市，擁有完整的基礎設施和豐富的機能，但同時也帶來較高的管理複雜度。相較之下，Nomad 更像是精心規劃的小鎮，提供核心功能的同時保持簡潔高效。

這種差異體現在它們的架構設計上：

Kubernetes 是由多個緊密耦合的元件組成的生態系統
Nomad 採用單一執行檔設計，極大簡化了佈署和維護流程

核心優勢比較

學習曲線與易用性

在帶領團隊匯入容器技術時，我發現 Nomad 的學習曲線明顯較為平緩。新手工程師通常能在幾天內掌握 Nomad 的核心概念，而熟悉 Kubernetes 則往往需要數週到數月的時間。

工作負載支援彈性

玄貓在實際專案中發現，Nomad 的一大優勢在於其多樣化的工作負載支援能力：

可同時管理容器化和非容器化應用
完整支援 Windows 和 Linux 環境
能處理各種執行檔、指令碼和傳統應用程式

環境一致性

在建置跨環境佈署流程時，我特別欣賞 Nomad 的一致性表現：

job "web-app" {
  datacenters = ["dc1"]
  type = "service"

  group "frontend" {
    count = 3
    
    task "nginx" {
      driver = "docker"
      
      config {
        image = "nginx:latest"
        port_map {
          http = 80
        }
      }
    }
  }
}

job 區塊定義了一個名為 “web-app” 的服務
datacenters 指定佈署的資料中心
group 設定了一個前端服務群組，設定了 3 個例項
task 區塊使用 Docker 驅動程式佈署 Nginx 容器
port_map 建立容器連線埠對映

這個簡單的設定檔案在所有環境中都能保持一致的行為，大幅減少了環境差異帶來的問題。

擴充套件效能表現

根據玄貓的實務經驗，兩個平台在擴充套件性上各有特色：

Kubernetes 聲稱支援：

最多 5,000 個節點
總計 300,000 個容器
但隨著規模擴大，管理複雜度呈指數增長

Nomad 展現出：

輕鬆處理數萬節點
支援跨區域佈署
在大規模測試中證明可管理 200 萬個容器

在效能和可靠性方面，玄貓發現 Nomad 的輕量級架構在大規模佈署時往往能提供更穩定的服務品質。特別是在資源受限的環境中，Nomad 的資源利用效率明顯優於 Kubernetes。

選擇合適的容器管理平台需要根據團隊的具體需求和技術能力來評估。若團隊追求簡單高效的容器管理方案，並且重視佈署的一致性，Nomad 是個值得考慮的選擇。但如果需要完整的容器生態系統支援，與有足夠資源投入學習和維護，Kubernetes 仍然是業界的主流選擇。

透過這些年的技術實踐，玄貓建議團隊在選擇容器管理平台時，應該著重評估自身的技術能力、資源限制和長期維護成本，而不是盲目追求市場主流方案。畢竟，最適合的工具才是最好的工具。

從 YAML 到 HCL：更友善的開發體驗

在經過多年的容器化技術實踐後，我發現 Nomad 提供了一個相當順暢的起步體驗。相較於 Kubernetes 使用 YAML 來定義佈署設定，Nomad 採用了 HashiCorp Configuration Language (HCL)。這個以 Go 語言為基礎開發的設定語言，讓我在實際使用時感受到它對開發者的友善度。

我認為 HCL 最大的優勢在於其直覺的語法結構。舉例來說，當我第一次接觸 HCL 時，僅花了幾小時就能掌握基本語法並開始建立佈署設定。這種快速上手的特性，讓團隊在匯入新技術時的學習曲線大幅降低。

Nomad 實戰入門

生產環境的 Nomad 建置

在建置生產環境時，我採用了一個伺服器搭配多個客戶端的架構設定。這種設計特別適閤中小規模的系統佈署，因為它既保持了架構的簡潔性，又具備足夠的擴充套件彈性。

關於伺服器的角色設定，我建議可以同時將其註冊為客戶端。這樣的設定讓單一節點能夠同時作為協調者和服務佈署平台，特別適合需要最佳化運算資源的場景。在實際佈署中，我發現這種方式能有效提升資源使用效率，同時維持系統的可靠性。

需要特別注意的是，如果要在 Nomad 上執行依賴 Docker 的服務，必須在所有客戶端節點上安裝 Docker。這是我在初期佈署時曾經忽略的重要細節，建議在規劃階段就將其納入考量。

網路連線埠設定

在設定 Nomad 的網路連線時，正確開放必要的連線埠對於確保伺服器與客戶端之間的通訊至關重要。以下是我在 AWS 環境中建立安全群組時的關鍵設定：

# AWS 安全群組設定範例
resource "aws_security_group" "nomad_cluster" {
  name        = "nomad-cluster"
  description = "Nomad 叢集安全群組"
  
  # Serf 通訊連線埠
  ingress {
    from_port   = 4648
    to_port     = 4648
    protocol    = "tcp"
    cidr_blocks = ["10.0.0.0/16"]  # 依據實際網路範圍調整
  }
}

這個設定中的連線埠 4648 用於 Serf 通訊協定，這是 Nomad 用來維持叢整合員關係的核心機制。在實務上，我發現明確定義安全群組規則不僅提升了系統安全性，也讓故障排除變得更加直觀。

在我的經驗中，相較於 Kubernetes 複雜的網路設定，Nomad 的網路設定更加直觀與容易管理。這種簡化的方案特別適合那些不需要過度複雜網路架構的專案。

設定 Nomad 叢集網路連線

在建立 Nomad 叢集時,正確的網路設定對於確保伺服器與客戶端之間的穩定通訊至關重要。玄貓在多年的分散式系統佈署經驗中發現,網路設定看似簡單,但若處理不當往往會造成難以排查的問題。讓我們深入瞭解 Nomad 的網路架構與設定要點。

Nomad 核心通訊埠與用途

Nomad 叢集需要開放三個關鍵的通訊埠:

4648 - 用於 Gossip 協定通訊
- 負責叢整合員管理與故障偵測
- 需同時開放 TCP 與 UDP
- 主要用於伺服器節點之間的狀態同步
4647 - RPC 通訊專用埠
- 用於節點間的 RPC 遠端呼叫
- 允許穿透 NAT 的客戶端連線
- 所有客戶端都必須能存取此埠
- 伺服器群組間 RPC 溝通也使用此埠
4646 - HTTP API 介面
- 用於 CLI 工具與 Nomad API 的互動
- 提供 Web UI 存取介面
- 可透過此埠監控叢集狀態

安全群組設定步驟

建立專用安全群組

resource "aws_security_group" "nomad" {
  name = "nomad-cluster"
  description = "Nomad cluster communication"
  
  # Gossip Protocol
  ingress {
    from_port = 4648
    to_port = 4648
    protocol = "tcp"
    cidr_blocks = ["0.0.0.0/0"]
  }
  
  ingress {
    from_port = 4648
    to_port = 4648  
    protocol = "udp"
    cidr_blocks = ["0.0.0.0/0"]
  }

  # RPC
  ingress {
    from_port = 4647
    to_port = 4647
    protocol = "tcp" 
    cidr_blocks = ["0.0.0.0/0"]
  }

  # HTTP API
  ingress {
    from_port = 4646
    to_port = 4646
    protocol = "tcp"
    cidr_blocks = ["0.0.0.0/0"] 
  }
}

將安全群組套用至所有 Nomad 節點

在 EC2 管理介面選擇目標執行個體
點選 Actions -> Security -> Change Security Groups
選取剛建立的安全群組並套用

將客戶端加入 Nomad 叢集

首先需要設定客戶端的組態檔,讓它知道如何連線到伺服器。在每個客戶端節點上執行:

編輯 /etc/nomad.d/client.hcl 加入以下設定:

client {
  enabled = true
  server_join {
    retry_join = ["<NOMAD_SERVER_IP>:4647"]
  }
}

請將 <NOMAD_SERVER_IP> 替換為實際的 Nomad 伺服器 IP。

重新啟動 Nomad 服務:

sudo systemctl restart nomad

驗證客戶端狀態:

# 檢查日誌確認連線狀態
sudo journalctl -u nomad -f

# 檢視節點列表
nomad node status

從玄貓的實務經驗來看,在生產環境中建議採用以下最佳實踐:

使用內部 IP 進行節點間通訊,降低安全風險
實作適當的網路分段,將伺服器與客戶端放在不同子網路
定期檢查安全群組規則,移除不必要的開放設定
建議使用服務發現機制(如 Consul),避免手動維護節點列表

設定完成後,我們就建立了一個基礎的 Nomad 叢集網路環境。這些設定能確保叢集中的節點可以穩定地進行通訊,為後續的任務排程與服務佈署打下基礎。接下來讓我們詳細瞭解Nomad的任務設定與佈署流程。以下是完整的任務設定範例與說明：

job "backend-service" {
  datacenters = ["dc1"]
  
  group "api" {
    count = 2  # 執行兩個例項以確保高用性
    
    network {
      port "http" {
        to = 8080  # 容器內部連線埠
      }
    }

    task "node-app" {
      driver = "docker"
      
      config {
        image = "node:16-alpine"
        ports = ["http"]
        
        # 設定容器啟動命令
        command = "node"
        args    = ["/app/server.js"]
        
        # 掛載本地程式碼到容器
        mount {
          type   = "bind"
          source = "local/app"
          target = "/app"
        }
      }

      # 資源設定
      resources {
        cpu    = 500 # MHz
        memory = 256 # MB
      }
      
      # 服務健康檢查
      service {
        name = "node-api"
        port = "http"
        
        check {
          type     = "http"
          path     = "/health"
          interval = "10s"
          timeout  = "2s"
        }
      }
    }
  }
}

讓我們逐一解析這個任務設定檔的重要元素：

任務架構說明

工作定義

job "backend-service" 定義了一個名為 backend-service 的任務
datacenters = ["dc1"] 指定任務可以在 dc1 資料中心執行

Group 設定

group "api" 建立了一個任務群組
count = 2 指定要執行兩個相同的例項
network 區塊定義了網路設定，將容器的 8080 連線埠映射出來

Task 細節

task "node-app" 定義具體的執行任務
driver = "docker" 使用 Docker 作為執行環境
config 區塊包含 Docker 相關的設定
resources 定義資源限制
service 設定服務發現和健康檢查

佈署流程

完成設定後，執行以下步驟進行佈署：

驗證任務設定：

nomad job validate backend-service.hcl

規劃佈署：

nomad job plan backend-service.hcl

執行佈署：

nomad job run backend-service.hcl

監控佈署狀態：

nomad job status backend-service

任務管理最佳實踐

資源規劃

根據應用需求合理設定 CPU 和記憶體
預留足夠的資源餘量以應對負載波動
定期監控資源使用情況並適時調整

高用性考量

使用多個例項確保服務可用性
設定適當的健康檢查機制
實作自動擴縮減策略

安全性設定

限制容器的許可權
使用安全的映像源
實作適當的網路隔離

監控與日誌

設定完善的日誌收集機制
建立監控警示
定期檢查服務健康狀態

效能最佳化建議

容器最佳化

使用輕量級的基礎映像
最小化容器層數
最佳化啟動時間

網路效能

合理設定網路頻寬
使用適當的網路模式
最佳化服務間的通訊

資源使用

實作資源自動擴縮
設定合適的資源限制
監控資源使用效率

玄貓在實際佈署過程中發現，良好的任務設定不僅能提升系統穩定性，還能大幅降低維運成本。透過合理的資源設定和自動化管理，我們可以建立一個高效與可靠的服務佈署流程。玄貓發現一個好的容器協調工具對於服務穩定性至關重要。本文將分享如何透過HashiCorp Nomad這套強大的工具來實作容器服務的自動化佈署與管理。

Nomad任務設定基礎

首先讓我們看一個基本的Nomad任務設定範例:

job "fw-parse" {
  datacenters = ["dc1"]
  
  group "servers" {
    task "fw-parse" {
      driver = "docker"
      config {
        image = "gitlab.site:5050/fw-parse/main:latest"
      }
    }
  }
}

這個設定看似簡單,但包含了幾個重要元素:

job區塊定義了任務名稱與資料中心
group區塊用於邏輯分組相關任務
task區塊指定了具體執行的容器設定

進階網路設定

在實際佈署中,網路設定是一個關鍵環節。以下是一個更完整的設定示範:

job "fw-parse" {
  datacenters = ["dc1"]

  group "servers" {
    count = 1
    
    network {
      port "http" {
        static = 1337
      }
    }

    task "fw-parse" {
      driver = "docker"
      config {
        image = "gitlab.hexmos.site:5050/backend/fw-parse/main:latest"
        auth {
          username = "gitlab@hexmos.site"
          password = "password"
        }
        ports = ["http"]
      }
      
      resources {
        cpu    = 500
        memory = 256
      }
    }
  }
}

此設定展示瞭如何:

設定固定的服務連線埠
設定容器映像檔認證
分配運算資源限制

多連線埠服務設定

對於需要暴露多個連線埠的服務,我們可以這樣設定:

job "fw-parse" {
  datacenters = ["dc1"]
  
  group "servers" {
    network {
      port "http" {
        static = 1337
      }
      port "https" {
        static = 1339
      }
      port "admin" {
        static = 3000
      }
    }

    task "fw-parse" {
      driver = "docker"
      config {
        image = "gitlab.hexmos.site:5050/backend/fw-parse/main:latest"
        auth {
          username = "gitlab@hexmos.site"
          password = "password"
        }
        ports = ["http", "https", "admin"]
      }
    }
  }
}

此設定允許服務同時使用多個連線埠,適合需要區分HTTPS和管理介面的場景。

佈署管理操作

在日常維運中,我們經常需要進行佈署的啟動與停止。以下是關鍵操作指令:

啟動佈署:

nomad job run fw-parse/fwparse.hcl

停止佈署:

nomad stop example

在多年的容器化實踐中,玄貓發現良好的佈署流程管理對於服務的穩定性至關重要。透過Nomad的宣告式設定,我們可以將複雜的佈署邏輯簡化為可版本控制的設定檔案,既提高了可維護性,也降低了人為錯誤的風險。同時,其直觀的指令介面讓維運團隊可以快速回應佈署需求,確保服務的持續可用性。

展望未來：擴充套件Nomad的潛力

在經過初步的Nomad佈署實踐後，玄貓看到了這個平台更廣闊的應用前景。讓我分享一下這段時間的心得，以及未來的發展規劃。

目前我們已經成功建立了一個基礎的Nomad環境，包含一台伺服器和三個客戶端節點。在執行Docker容器化的Node.js後端服務一週後，系統展現出優異的穩定性與效能表現。不過這只是開始，玄貓規劃了更完整的技術藍圖。

首要任務是整合GitLab CI/CD流程。這不僅能夠實作自動化佈署，更重要的是能夠建立一個完整的持續整合與交付管道。從程式碼提交到測試，再到生產環境的佈署，都將形成一個順暢的自動化流程。

接下來是匯入HashiCorp Vault進行機密管理。在現代雲端架構中，安全性是不容忽視的關鍵。Vault能夠提供強大的加密機制、動態機密生成，以及精細的存取控制，確保我們的應用程式安全無虞。

這套架構特別適合採用團隊共同擁有權模式的開發團隊。Nomad注重開發者體驗的設計理念，完美符合我們追求快速迭代和高效佈署的目標。從實際使用經驗來看，它確實能夠大幅提升開發團隊的工作效率。

根據實戰經驗，玄貓建議在匯入Nomad時可以循序漸進：先從小規模的非關鍵服務開始，累積經驗後再逐步擴大應用範圍。同時，持續關注社群動態，吸收其他團隊的最佳實踐，這對提升整體架構的穩定性和可靠性非常重要。

在技術選型上，玄貓認為Nomad的優勢在於其簡單直觀的架構和較低的學習曲線。相較於較為複雜的容器協調平台，Nomad提供了更靈活的佈署選項，特別適閤中小規模的技術團隊。不過，這並不意味著它在大規模佈署場景中就表現遜色 - 事實上，透過適當的規劃和設定，Nomad完全能夠勝任企業級的工作負載。

未來發展方向還包括探索Nomad的進階功能，例如任務分組、資源配額管理、以及與其他HashiCorp產品的深度整合。這些功能將幫助我們建立更完善的容器管理生態系統。

透過這次實踐，我們不僅驗證了Nomad的技術價值，更看到了它在簡化佈署流程、提升維運效率方面的巨大潛力。這正是現代化技術架構所追求的目標 - 既要保證系統的可靠性，又要讓開發團隊能夠專注於創造價值，而不是陷入繁瑣的維運工作中。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。