Vault 與 Falco 在叢集安全中的整合實作

確保 Kubernetes 叢集安全及高用性對於雲端原生應用至關重要。本文將探討如何強化叢集安全，涵蓋跨可用區佈署、機密管理及執行時期威脅偵測等導向。

提升 Kubernetes 叢集可用性：跨可用區佈署策略

雲端供應商的資料中心分佈於不同區域和可用區，提供隔離故障的能力。善用此特性，在 Kubernetes 叢集佈署時，跨可用區佈署能有效提升服務可用性。以下説明如何使用 kops 設定跨可用區佈署：

export NODE_SIZE=${NODE_SIZE:-t2.large}
export MASTER_SIZE=${MASTER_SIZE:-t2.medium}
export ZONES=${ZONES:-"us-east-1a,us-east-1b,us-east-1c"}
export KOPS_STATE_STORE="s3://my-k8s-state-store2/"

kops create cluster k8s-clusters.k8s-demo-zone.com \
--cloud aws \
--node-count 3 \
--zones $ZONES \
--node-size $NODE_SIZE \
--master-size $MASTER_SIZE \
--master-zones $ZONES \
--networking calico \
--kubernetes-version 1.14.3 \
--yes

--zones 和 --master-zones 引數指定了三個可用區，確保控制平面和工作節點分散佈署，提升叢集容錯能力。即使單一可用區故障，其他可用區的節點仍能維持服務運作。

Kubernetes 機密管理：Vault 實戰

Kubernetes 的 Secret 物件安全性不足，生產環境中建議使用第三方工具，例如 Vault，來管理機密。以下介紹如何在 Kubernetes 中整合 Vault：

Vault 佈署與設定

helm install vault --set='server.dev.enabled=true' https://github.com/hashicorp/vault-helm/archive/v0.4.0.tar.gz

server.dev.enabled=true 引數僅適用於開發環境，生產環境需更嚴謹的設定。佈署後，vault-0 Pod 負責管理機密，vault-agent-injector Pod 負責將機密注入其他 Pod。

建立和存取機密

vault kv put secret/postgres username=alice password=pass

此命令在 vault-0 Pod 內執行，建立名為 postgres 的機密，包含使用者名稱和密碼。

策略定義與關聯

path "secret*" {
  capabilities = ["read"]
}

vault policy write app /home/vault/app-policy.hcl

定義 app 策略，允許讀取 secret 路徑下的所有機密。

vault auth enable kubernetes
# ... (其他設定)
vault write auth/kubernetes/role/myapp \
# ... (其他設定)
policies=app \
# ... (其他設定)

啟用 Kubernetes 驗證，並將 app 策略與特定名稱空間的服務帳戶繫結，控制機密存取許可權。

應用程式佈署與機密注入

apiVersion: apps/v1
kind: Deployment
# ... (其他設定)
      annotations:
        vault.hashicorp.com/agent-inject: "true"
        # ... (其他 Vault 註解)

透過 Vault 註解，vault-agent-injector 會將機密注入 Pod，應用程式可透過指定路徑存取。

機密輪換

Vault 支援動態機密生成和輪換，透過設定 TTL，定期更新機密，提升安全性。vault-agent 會自動更新過期機密。

Falco：Kubernetes 執行時期威脅偵測

Falco 是一款 CNCF 開源專案，提供 Kubernetes 執行時期威脅偵測。它透過監控系統呼叫和 Kubernetes 稽核事件，識別異常行為。

Falco 運作原理

Falco 監控系統呼叫和 Kubernetes 稽核事件，並根據預先定義的規則判斷是否存在異常行為。系統呼叫是應用程式與作業系統互動的底層機制，Falco 藉此統一監控容器活動。

  flowchart LR
    subgraph 容器A
        A["應用程式 (fopen)"] --> B["open 系統呼叫"]
    end
    subgraph 容器B
        C["應用程式 (open)"] --> D["open 系統呼叫"]
    end
    subgraph 容器C
        E["應用程式 (os.Open)"] --> F["open 系統呼叫"]
    end
    B --> G["作業系統核心"]
    D --> G
    F --> G

上圖顯示不同容器中的應用程式，即使用不同程式語言的檔案開啟函式，最終都會觸發作業系統的 open 系統呼叫。Falco 監控此呼叫，無需關心應用程式型別或程式語言。

透過跨可用區佈署、Vault 機密管理和 Falco 威脅偵測，可以有效提升 Kubernetes 叢集的安全性和可用性。

深入解析容器安全：運用 CRIU 與 Sysdig 執行資料擷取與事件重建

在容器化環境中，安全防禦至關重要。本文將探討如何利用 CRIU 和 Sysdig 這兩個強大的工具，在 Kubernetes 叢集中進行資料擷取和安全事件重建，以提升容器化環境的安全性。

CRIU：凍結時間，捕捉容器狀態

CRIU (Checkpoint and Restore In Userspace) 是一個允許凍結正在執行的容器並將其狀態儲存到磁碟的工具。之後，可以將儲存的資料還原到凍結時的狀態。這對於容器快照、遷移和遠端除錯非常有用。從安全的角度來看，CRIU 尤其適用於捕捉容器中的惡意活動，以便在檢查點之後立即終止容器，然後在沙盒環境中還原狀態以進行進一步分析。

在設計分散式系統時，我曾面臨一個挑戰：如何有效地捕捉系統中偶爾出現的異常行為？傳統的日誌記錄方式往往不夠精確，難以捕捉到完整的事件上下文。CRIU 的出現為這個問題提供了一個解決方案。

以下示例展示 CRIU 的功能：

# 啟動一個 busybox 容器，每秒遞增計數器
docker run -d --name counter --security-opt seccomp:unconfined busybox /bin/sh -c 'i=0; while true; do echo $i; i=$(expr $i + 1); sleep 1; done'

# 等待幾秒鐘
sleep 5

# 檢視計數器輸出
docker logs counter

輸出結果顯示計數器值不斷遞增。接著，使用 CRIU 建立檢查點：

# 建立檢查點
docker checkpoint create --checkpoint-dir=/tmp counter checkpoint

# 建立一個新的 counter 容器，但不啟動
docker create --name counter-clone --security-opt seccomp:unconfined busybox /bin/sh -c 'i=0; while true; do echo $i; i=$(expr $i + 1); sleep 1; done'

# 使用儲存的狀態啟動新的容器
docker start --checkpoint-dir=/tmp --checkpoint=checkpoint counter-clone

# 等待幾秒鐘
sleep 5

# 檢視新容器的計數器輸出
docker logs counter-clone

新容器的計數器從之前的數值繼續遞增，這表明狀態已成功還原。

  graph LR
    B[B]
    D[D]
    A[執行中的容器] --> B{建立檢查點}
    B --> C[儲存容器狀態至磁碟]
    C --> D{啟動新容器}
    D --> E[還原容器狀態]

此圖表説明瞭 CRIU 如何建立和還原容器檢查點。首先，CRIU 凍結正在執行的容器，並將其狀態儲存到磁碟。然後，可以使用此儲存的狀態來啟動一個新的容器，該容器將從凍結點繼續執行。

CRIU 對於容器取證非常有用，尤其是在容器中發生可疑活動時。您可以建立檢查點（假設叢集中有多個複本正在執行），讓 CRIU 終止可疑的容器，然後在沙盒環境中還原容器的可疑狀態以進行進一步分析。

Sysdig 與 Sysdig Inspect：系統探索與安全調查

Sysdig 是一款開源工具，用於 Linux 系統探索和故障排除，並支援容器。Sysdig 還可以透過檢測 Linux 核心並捕捉系統呼叫和其他作業系統事件來建立系統活動的追蹤檔案。這種捕捉功能使其成為容器化環境中出色的取證工具。Sysdig 提供了一個 kubectl 外掛程式 kubectl-capture，它可以像其他 kubectl 命令一樣簡單地捕捉目標 Pod 的系統呼叫。捕捉完成後，可以使用開源工具 Sysdig Inspect 進行故障排除和安全調查。

延續前面的案例，假設我們收到一個 Falco 警示，指出 insecure-nginx Pod 中存在異常檔案讀取活動：

08:22:19.484698397: Warning Anomalous file read activity in Nginx pod (user=<NA> process=nginx file=/etc/passwd container_id=439e2e739868 image=kaizheh/insecure-nginx)

我們可以使用 kubectl-capture 來捕捉這個 Pod 的系統呼叫：

kubectl capture insecure-nginx -o falco-capture.scap

然後，使用 Sysdig Inspect 分析捕捉到的檔案 falco-capture.scap，以深入瞭解異常檔案讀取活動的細節。

  graph LR
    B[B]
    D[D]
    A[Falco 警示] --> B{使用 kubectl-capture}
    B --> C[捕捉系統呼叫]
    C --> D{使用 Sysdig Inspect 分析}
    D --> E[調查安全事件]

此圖表展示瞭如何使用 kubectl-capture 和 Sysdig Inspect 來調查 Falco 警示。首先，Falco 觸發警示。然後，使用 kubectl-capture 捕捉相關 Pod 的系統呼叫。最後，使用 Sysdig Inspect 分析捕捉到的檔案，以瞭解事件的詳細資訊。

透過 CRIU 和 Sysdig，我們可以更有效地捕捉和分析容器中的安全事件，從而提升 Kubernetes 環境的安全性。這些工具的結合使用，為容器安全取證和事件重建提供了強大的支援。

我認為，在容器安全領域，CRIU 和 Sysdig 是非常有價值的工具。它們的結合使用，可以幫助我們更深入地瞭解容器內部的活動，並有效地應對安全威脅。尤其是在面對複雜的攻擊場景時，這些工具可以提供關鍵的證據和分析資料，幫助我們快速定位問題並採取有效的應對措施。

# 使用 kubectl-capture 啟動捕捉，鎖定目標 Pod
kubectl capture insecure-nginx-7c99fdf44b-4fl5s -n insecure-nginx

kubectl-capture 會在目標 Pod 所在的節點上建立一個新的 Pod 來執行捕捉任務。任務完成後，一個壓縮的捕捉檔案會儲存在目前目錄。接著，我們就能使用 Sysdig Inspect 來深入分析：

# 啟動 Sysdig Inspect，將捕捉檔案掛載到容器中
docker run -d -v /path/to/captures:/captures -p 3000:3000 sysdig/sysdig-inspect:latest

開啟瀏覽器，登入 Sysdig Inspect 的 Web 介面，我們可以從不同導向剖析容器內部的活動：

程式執行的指令
檔案系統的讀寫操作
網路連線的細節
底層的系統呼叫

(流程圖，展示 Sysdig Inspect 安全事件調查流程)

  graph LR
    C[C]
    E[E]
    F[F]
    G[G]
A[Falco 警示觸發] --> B(啟動 kubectl-capture);
B --> C{建立捕捉檔案};
C --> D(啟動 Sysdig Inspect);
D --> E{分析網路連線};
E --> F{識別可疑容器};
F --> G{調查執行指令與系統呼叫};

這張流程圖清楚地展示瞭如何使用 Sysdig Inspect 來調查安全事件。從 Falco 警示觸發開始，到使用 kubectl-capture 捕捉容器狀態，再到使用 Sysdig Inspect 分析捕捉到的資料，最終定位可疑活動並進行深入調查。

藉由 Sysdig Inspect，我們可以找出異常的網路請求，鎖定發起攻擊的容器，並深入分析其執行的指令和系統呼叫，從而準確地找出攻擊行為並採取必要的防禦措施。

透過 CRIU 和 Sysdig 的協同合作，我們得以有效地應對容器安全挑戰，強化容器化環境的安全性。CRIU 負責凍結容器狀態，Sysdig 則負責深入分析，兩者相輔相成，提供全面的安全防護。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。