Node Exporter 系統監控最佳實踐

Node Exporter 與 Prometheus 的整合，是現代化系統監控的根本。它透過多個收集器，提供 CPU、記憶體、磁碟、網路等關鍵指標，讓工程師能全面掌握系統執行狀態。除了預設的收集器外，textfile 收集器更能擴充套件監控範圍，涵蓋批次作業等非持續性程式，為系統穩定性提供更全面的保障。然而，正確組態和使用 Node Exporter 至關重要，避免資源浪費和潛在風險。選擇必要的收集器、定期檢查狀態、遵循安全規範，才能最大化 Node Exporter 的效益，建構高效的監控體系。

Node Exporter 在系統監控中的關鍵角色與最佳實踐

Node Exporter 是 Prometheus 生態系統的核心元件之一，專門用於收集 Linux 系統的硬體和作業系統指標。透過多種收集器（Collector）的支援，Node Exporter 能夠提供豐富的系統監控資料，涵蓋 CPU、記憶體、磁碟、網路等多個導向。本文將深入探討 Node Exporter 的各項功能，並提供實務上的最佳實踐建議，協助工程師打造更完善的系統監控方案。

Node Exporter 的基本架構與工作原理

Exporter 的基本組成

要理解 Node Exporter 的工作原理，首先需要了解 Exporter 的基本組成。Exporter 將外部系統的資料轉換為 Prometheus 指標，主要包含以下三個部分：

指標定義：在程式碼中定義 Prometheus 指標並註冊到登入檔中。
收集器（Collector）：負責收集指標的當前值。
指標登入檔：用於追蹤所有 Prometheus 指標及其值。

以下是一個簡單的 Go 程式碼範例，展示瞭如何建立一個基本的 Exporter：

package main

import (
    "log"
    "net/http"

    "github.com/prometheus/client_golang/prometheus"
    "github.com/prometheus/client_golang/prometheus/promhttp"
)

var myMetric = prometheus.NewDesc("exporter_success", "反映 Exporter 是否正常運作", nil, nil)

type myCollector struct{}

func (c myCollector) Describe(ch chan<- *prometheus.Desc) {
    ch <- myMetric
}

func (c myCollector) Collect(ch chan<- prometheus.Metric) {
    ch <- prometheus.MustNewConstMetric(myMetric, prometheus.GaugeValue, 1.0)
}

func main() {
    prometheus.MustRegister(&myCollector{})
    http.Handle("/metrics", promhttp.Handler())
    log.Fatal(http.ListenAndServe(":9999", nil))
}

程式碼解析

此範例程式碼展示了一個簡單的 Exporter 實作。主要步驟如下：

定義一個名為 exporter_success 的指標，用於反映 Exporter 的運作狀態。
建立一個收集器 myCollector，實作 Describe 和 Collect 方法。
在 main 函式中註冊收集器並啟動 HTTP 伺服器，監聽 :9999 連線埠。
當存取 /metrics 路徑時，Prometheus 會收集指標資料。

Node Exporter 的預設收集器

Node Exporter 預設啟用了多個收集器，以下是一些常用的收集器及其提供的指標：

conntrack 收集器

conntrack 收集器提供了與 Linux 核心的 netfilter 連線追蹤子系統相關的指標，用於監控伺服器的連線狀態。

  flowchart TD
    A[開始] --> B{檢查連線狀態}
    B -->|有效| C[更新連線追蹤表]
    B -->|無效| D[回報錯誤]
    C --> E[繼續處理]
    D --> E

圖表解析

此圖展示了連線追蹤的基本流程。首先檢查連線狀態，如果連線有效，則更新連線追蹤表；如果連線無效，則回報錯誤。無論結果如何，流程都會繼續進行。

cpu 收集器

cpu 收集器提供了 CPU 使用情況的指標，以秒為單位記錄 CPU 在不同模式下的時間佔比。

要計算 CPU 使用率，可以使用以下 PromQL 查詢：

sum without (cpu, mode) (rate(node_cpu_seconds_total{mode!="idle"}[5m]))

diskstats 收集器

diskstats 收集器提供了與儲存裝置相關的統計資料，包括磁碟 I/O 和檔案系統型別等指標。

  flowchart TD
    A[開始] --> B{檢查磁碟狀態}
    B -->|正常| C[收集磁碟統計資料]
    B -->|異常| D[回報錯誤]
    C --> E[提供指標資料]
    D --> E

圖表解析

此圖展示了磁碟統計資料的收集流程。首先檢查磁碟狀態，如果正常則收集統計資料；如果異常則回報錯誤。最終提供相關的指標資料。

系統監控的最佳實踐

檔案系統監控

檔案系統收集器（filesystem collector）是磁碟統計收集器（diskstats collector）的自然補充。磁碟統計收集器關注實體（或虛擬）磁碟，而檔案系統收集器則提供與磁碟上的檔案系統相關的指標。

這些指標包括檔案系統的最大容量和可用空間等重要資訊。以下是一些關鍵指標：

node_filesystem_size_bytes：檔案系統的總容量。
node_filesystem_free_bytes：檔案系統的剩餘空間。將此指標從 node_filesystem_size_bytes 中減去，即可得出檔案系統的使用量。

網路介面監控

網路裝置收集器（netdev collector）提供了網路介面的相關指標，包括進出網路裝置的封包數量、傳輸資料量以及丟棄的封包數量。

以下是一些常見的指標：

node_network_transmit_bytes_total：傳輸的資料總量。與 rate 函式結合使用，可檢視每秒的資料吞吐量。
node_network_receive_bytes_total：接收的資料總量。
node_network_receive_drop_total：接收過程中丟棄的封包數量。
node_network_transmit_drop_total：傳輸過程中丟棄的封包數量。

壓力監控

壓力收集器（pressure collector）提供了對系統資源爭用情況的深入洞察，特別是在 Linux 核心版本4.20及以上版本中。此收集器根據核心的「壓力失速資訊」（Pressure Stall Information, PSI）機制，追蹤磁碟 I/O、記憶體和 CPU 等資源引起的延遲。

以下是一些關鍵指標：

node_pressure_memory_stalled_seconds_total：因等待記憶體資源而停滯的總時間。
node_pressure_io_stalled_seconds_total：因等待磁碟資源而停滯的總時間。

Node Exporter 收集器詳解與系統監控強化

textfile 收集器的特殊應用

textfile 收集器是 Node Exporter 中一個非常有價值的功能，它允許從檔案中讀取 Prometheus 格式的指標資料，並將其納入 Node Exporter 的 /metrics 端點輸出中。這種機制為監控短暫執行的程式（如批次作業或 cron 任務）提供了極大的便利。

使用 textfile 收集器的好處

擴充套件監控能力：可以監控那些無法直接透過 HTTP 端點暴露指標的程式。
靈活性：支援在任意檔案中寫入指標資料，只要檔案符合 Prometheus 的文字格式規範即可。
適用於批次作業監控：特別適合用於監控短暫執行的批次作業或定期任務。

使用 textfile 收集器的注意事項

檔案格式要求：指標檔案必須以 .prom 為副檔名，並且遵循 Prometheus 的文字格式規範。
目錄組態：需要透過 --collector.textfile.directory 引數指定指標檔案的存放目錄。
避免過度使用：雖然 textfile 收集器功能強大，但過度使用可能會引入額外的複雜性和潛在的靜默失敗風險。

  flowchart TD
    A[啟用 textfile 收集器] --> B{指定收集目錄}
    B --> C[寫入指標檔案]
    C --> D[符合Prometheus格式]
    D --> E[Node Exporter收集指標]
    E --> F[Prometheus抓取指標]

圖表翻譯：

此圖示展示了使用 textfile 收集器的基本流程。首先需要啟用 textfile 收集器並指定收集目錄，接著在該目錄中寫入符合 Prometheus 格式的指標檔案。Node Exporter 會讀取這些檔案並將指標資料納入其 /metrics 端點，最終由 Prometheus 進行抓取。

程式碼範例：使用 textfile 收集器

以下是一個簡單的範例，展示如何使用 Bash 指令碼生成符合 Prometheus 格式的指標檔案：

#!/bin/bash

# 定義指標檔案路徑
METRICS_FILE="/var/lib/prometheus/metrics.prom"

# 清空舊的指標資料
echo "" > $METRICS_FILE

# 寫入自定義指標
echo "# HELP my_job_last_run_time_seconds 最後一次作業執行的時間戳" >> $METRICS_FILE
uro
echo "# TYPE my_job_last_run_time_seconds gauge" >> $METRICS_FILE
echo "my_job_last_run_time_seconds $(date +%s)" >> $METRICS_FILE

echo "# HELP my_job_last_run_success 最後一次作業是否成功" >> $METRICS_FILE
echo "# TYPE my_job_last_run_success gauge" >> $METRICS_FILE
echo "my_job_last_run_success eri" >> $METRICS_FILE

內容解密：

此指令碼首先定義了指標檔案的存放路徑，然後清空該檔案以準備寫入新的指標資料。接著，指令碼寫入了兩個自定義指標：my_job_last_run_time_seconds 用於記錄最後一次作業執行的時間戳，而 my_job_last_run_success 則用於表示最後一次作業是否成功。這些指標都遵循 Prometheus 的文字格式規範，能夠被 Node Exporter 正確讀取。

最佳實踐與注意事項

合理規劃收集器：根據實際監控需求啟用必要的收集器，避免不必要的效能開銷。
定期檢查收集器狀態：監控 Node Exporter 的執行狀態和收集器的運作情況。
適當使用 textfile 收集器：對於非持續執行的程式或特殊監控需求，可以使用 textfile 收集器來擴充套件監控能力。
注意安全性：確保 Node Exporter 的組態和指標資料的存取都遵循最小許可權原則。
持續關注新功能：隨著 Node Exporter 的更新，不斷瞭解新的收集器和功能，以最佳化監控策略。

透過合理組態和使用 Node Exporter 的各種收集器，可以建立一個全面而強大的系統監控體系，為系統的穩定運作提供有力的支援。

隨著雲原生應用和微服務架構的普及，系統監控的重要性日益凸顯。Node Exporter 作為 Prometheus 生態系統中的關鍵元件，在 Linux 系統監控方面扮演著不可或缺的角色。本文深入剖析了 Node Exporter 的架構、工作原理以及各種收集器的應用，並提供了最佳實踐建議。多維比較分析顯示，Node Exporter 相較於傳統的系統監控工具，更具備靈活性、可擴充套件性和與雲原生生態的整合性。然而，技術限制深析也指出，Node Exporter 主要關注系統層級的指標，對於應用層級的監控需要結合其他工具，例如應用程式自身的指標暴露或服務網格技術。實務落地分析建議，除了活用內建的收集器，更應善用 textfile 收集器擴充套件監控範圍，例如監控批次作業或其他非常駐程式。考量到系統資源消耗，需謹慎選擇啟用的收集器，並定期檢視指標資料的有效性和完整性。玄貓認為，Node Exporter 不僅是系統監控的根本，更是邁向可觀測性體系的重要一步。隨著雲原生技術的持續發展，預見 Node Exporter 將持續演進，提供更豐富的指標和更強大的監控能力，賦能企業構建更具韌性的應用系統。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。