DDoS 防禦的量化利器：多元相關性分析

在現今網路環境中，DDoS 攻擊防禦需要更精細的資料分析能力。相關性分析作為一種量化資料集之間關聯性的有效方法，能協助我們識別潛在的攻擊模式，並據此調整防禦策略。本文將探討 Pearson、Spearman、Kendall 以及 SSSim 等多種相關性分析方法，並解析它們在 DDoS 防禦中的應用價值。透過這些方法，我們可以更精確地量化網路流量資料的關聯性，進而提升 DDoS 攻擊的檢測和防禦能力。不同方法的選擇取決於資料特性和分析目標，例如線性關係分析適用 Pearson 相關係數，非線性關係則可選用 Spearman 或 Kendall 等級相關，而 SSSim 更適合處理包含平移和縮放的複雜資料模式。

玄貓解讀DDoS防禦：前人智慧與未來挑戰

早期研究的啟示：多重防禦策略的探索

在網路安全領域，DDoS（分散式阻斷服務）攻擊一直是個棘手的問題。早期的研究者們已經開始探索各種創新的防禦策略，試圖在頻寬效率和能源效率之間找到平衡。例如，在多重無線電網路中，如何有效地緩解阻斷攻擊？漫遊蜜罐技術又是如何偽裝自己，讓攻擊者難以辨識真假？

這些早期的研究，如同黑暗中的燈塔，為我們指引了方向。其中，請求混洗（shuffling requests）的概念，透過在伺服器之間重新分配請求，為合法的請求創造了服務的機會。而群體測試理論的應用，則能更有效地識別出服務層級的DoS攻擊者。

從SYN Flood到分散式防禦：技術演進的軌跡

SYN Flood攻擊是一種常見的DDoS攻擊手法，透過大量偽造的SYN請求耗盡伺服器資源。早期的研究也關注如何在高效率的網路處理器上實作根據比例的SYN Flood檢測（RSD）。

此外，分散式DDoS防禦框架的出現，代表著防禦思路的進化。這種框架透過協調源端和受害者端之間的防禦系統，共同抵禦攻擊。同時，對網路協定的深入理解，以及對PCAP資料的分析，也能幫助我們理解現代漏洞和惡意軟體在網路層級的行為模式。

開源的力量：開發網路感知系統

開源軟體在網路安全領域扮演著重要的角色。透過開源工具，我們可以構建根據流量的網路感知系統，進而解決問題並提高網路可靠性。

玄貓認為，這些早期研究為我們打下了堅實的基礎，但要真正有效地應對DDoS攻擊，我們需要更深入地理解攻擊的本質，並發展出更先進的防禦技術。

本章的獨特之處：從攻擊到防禦的全面解析

本章與其他DDoS安全書籍的不同之處在於，它不僅關注防禦，更探討了攻擊的各個方面：

DDoS攻擊的型別、特徵、原因和目標：理解攻擊的本質是防禦的第一步。
殭屍網路技術的演進、趨勢和挑戰：殭屍網路是DDoS攻擊的幕後黑手，理解它們至關重要。
統計和機器學習方法在DDoS檢測和防禦中的應用：這些方法為我們提供了更智慧的防禦手段。
DDoS反應和容錯機制：如何在不影響服務品質的前提下保護網路資源？
大量DDoS攻擊工具和監控系統的實際應用：知己知彼，百戰不殆。
客製化測試平台的開發：透過模擬攻擊，我們可以更好地理解攻擊者的思維，並改進防禦策略。

本章的貢獻：知識、工具與實踐

本章的主要貢獻包括：

探討殭屍網路技術：全面分析殭屍網路的演進、趨勢和挑戰。
系統性地介紹DDoS檢測、預防、反應和容錯的各種方法：涵蓋統計、機器學習、知識函式庫和軟計算等方法。
討論大量的實用工具和系統：包括攻擊者使用的工具和防禦者使用的工具。
提供開發客製化測試平台的：幫助研究人員進行實驗，理解攻擊者的行為，並改進防禦策略。
列出重要的未解決問題和研究挑戰：為未來的研究指明方向。

本章的組織結構：從理論到實踐的完整旅程

本章全面探討了網路中的分散式阻斷服務（DDoS）攻擊，以及DDoS檢測、預防、反應和容錯的方法。為了清楚地瞭解攻擊者如何發動攻擊，我們將從攻擊者的角度，在私有網路的環境中進行模擬。玄貓強烈建議學生、研究人員和專業人員在受限的環境中進行這些實驗，以避免失控，同時也能深入瞭解攻擊者的思維和技術，從而更好地進行預防和緩解。

本章還討論了許多使用統計和機器學習技術開發的DDoS防禦機制和系統。為了了解這些方法或系統的有效性，我們還將討論可用於真實環境和模擬環境中的效能指標。

第一章：介紹網路中的異常現象，異常現象產生的原因，異常現象旨在攻擊的目標以及異常現象產生的最新趨勢。本章還介紹了各種DDoS防禦系統，以保護網路資源。
第二章：探討與現代網路設計相關的各種問題，然後討論可能影響現代網路效能和安全性的漏洞。
第三章：討論DDoS攻擊、攻擊者採用的策略以及DDoS攻擊的分類別。本章討論用於在各種規模上發動各種DDoS攻擊的殭屍網路技術的特徵、模型和架構。
第四章：討論如何開發客製化的實驗測試平台和DDoS攻擊工具，以（i）發動高流量和低流量DDoS攻擊，（ii）監控和分析網路流量，以及（iii）以圖形方式視覺化流量模式，以支援構建DDoS防禦。
第五章：概述已開發的DDoS防禦系統，然後深入討論各種DDoS防禦方法、DDoS防禦參與者之間的控制性質、防禦架構、這些系統在網路上的佈署以及使用的底層數學和演算法技術。
第六章：討論幾個流行的且被廣泛參照的（根據Google Scholar）DDoS防禦系統。本章還討論可用於評估DDoS防禦系統的效能指標。
第七章：總結本章，並討論這個不斷發展的網路安全研究領域中的研究問題和挑戰。

總而言之，本章旨在為讀者提供一個全面而深入的DDoS攻擊與防禦的知識體系，從理論到實踐，幫助讀者更好地理解和應對這一複雜的網路安全挑戰。

為何你的網站總是慢吞吞？淺談DDoS攻擊與防禦策略

網路世界中，網站速度是使用者經驗的關鍵。想像一下，當你滿懷期待點選一個連結，卻發現網頁像蝸牛一樣慢，甚至直接無法開啟，那種感覺肯定很糟糕。這背後的原因，很可能就是DDoS攻擊在作祟。

網路塞車：DDoS攻擊如何癱瘓你的網站

DDoS，全名為分散式阻斷服務（Distributed Denial of Service）攻擊，就像一群惡意訪客同時湧入你的網站，使其不堪重負。與傳統DoS攻擊不同，DDoS攻擊利用多個受感染的電腦（殭屍網路）發動攻擊，就像一支訓練有素的網路軍隊，威力更加強大。

核心網路通常擁有高頻寬連結，能處理大量資料。但邊緣網路（連線最終使用者的網路）的頻寬相對較低。當大量攻擊流量湧入時，即使核心網路能夠承受，邊緣網路也可能因為頻寬不足而當機，導致服務中斷。

網路世界的迷霧：DDoS攻擊難以追蹤的根源

現代網路設計追求最佳服務和高用性，即使在最惡劣的條件下也能維持運作。多路徑路由技術可以在部分網路故障時，選擇替代路徑傳輸資料，確保連線不中斷。

然而，這種靈活性也被攻擊者利用。由於來自同一來源的資料封包可以透過多條路徑傳輸，一旦偵測到潛在的攻擊，就很難準確追蹤攻擊的源頭。這就像在迷宮中尋找罪犯，增加了防禦的難度。

無政府狀態：缺乏中心化管理的問題

網際網路的設計理念是分散式管理，缺乏一個中心化的資源管理機制。雖然這種模式促進了網路的快速發展，但也讓惡意使用者更容易發動DDoS攻擊。

即使我們在多個地點佈署了DDoS防禦方案，由於缺乏統一的管理機構，全球佈署和有效控制攻擊仍然是一個嚴峻的挑戰。這就像各自為政的諸侯，難以形成合力抵抗外敵。

資源分享的陷阱：當好意被濫用

IP網路設計的初衷是讓使用者分享資源，以提供最佳的封包交換服務。但這種分享機制也帶來了問題：一個使用者的不當行為可能會影響其他使用者的服務品質。

惡意使用者可以透過佔用大量分享資源，幹擾其他合法使用者。這種使用者之間的相互依賴性，是DoS和DDoS攻擊的主要原因之一。

DDoS攻擊的四個步驟

掃描：攻擊者掃描整個網路，尋找並招募有漏洞的主機。
入侵：利用惡意軟體或後門程式入侵這些主機。
感染：將受感染的主機變成殭屍網路的一部分，作為攻擊平台。
攻擊：利用殭屍網路發動DDoS攻擊。

DDoS攻擊的型別

DDoS攻擊可以根據不同的標準進行分類別，例如OSI模型層級、攻擊方式、流量大小和攻擊速率。

根據OSI層級的DDoS攻擊

應用層DDoS攻擊：攻擊者利用HTTP和HTTPS等應用層協定，傳送大量的CPU密集型查詢到伺服器，使其忙於處理無效請求。這種攻擊所需的流量相對較小，但由於流量與合法流量難以區分，因此很難偵測。
傳輸層/網路層DDoS攻擊：攻擊者試圖耗盡受害者網路的頻寬或裝置（如路由器、交換器和防火牆）的記憶體。他們會利用ICMP、UDP和TCP等協定，傳送大量的垃圾流量。這種攻擊通常具有很大的流量，可能達到數百Gbps。

代理處理器與IRC架構

DDoS攻擊的發動方式主要有兩種架構：代理處理器（Agent-Handler）和網際網路中繼聊天（IRC）。

代理處理器架構：客戶端、處理器和代理程式組成一個系統。攻擊者透過客戶端與代理系統互動，並將惡意軟體安裝在網路上作為處理器。處理器用於與代理程式交換訊息，受感染的系統則執行攻擊。
IRC架構：客戶端和代理程式透過IRC通道進行通訊。代理程式透過IRC埠進行通訊，使防禦者難以追蹤DDoS指令封包。

玄貓認為，理解DDoS攻擊的原理和型別，是有效防禦的基礎。在下一節中，玄貓將探討DDoS攻擊的防禦策略。

玄貓解說DDoS攻擊：常見型別與目標分析

DDoS（分散式阻斷服務）攻擊是網路安全領域中一個持續存在的威脅。玄貓將探討DDoS攻擊的各種型別，從網路層到應用層，以及它們如何影響不同的目標。

常見的網路層DDoS攻擊手法

網路層DDoS攻擊旨在透過大量惡意流量淹沒受害者網路，使其無法處理正常請求。以下是一些常見的網路層攻擊型別：

TCP SYN Flood：攻擊者傳送大量TCP SYN（同步）請求，但不完成三次握手，導致伺服器資源耗盡。
ICMP Echo (Ping) Flood：攻擊者傳送大量ICMP Echo請求（ping），淹沒受害者網路。
UDP Flood：攻擊者傳送大量UDP封包到受害者伺服器，由於UDP是無連線協定，伺服器需要處理每個封包，導致資源耗盡。
DNS Amplification：攻擊者利用公共DNS伺服器，傳送偽造來源IP位址為受害者的DNS請求，DNS伺服器回應的大量資料會淹沒受害者。
NTP Amplification：類別似於DNS放大攻擊，但利用網路時間協定（NTP）伺服器。

直接攻擊 vs. 反射攻擊：玄貓的實戰經驗

DDoS攻擊可以分為直接攻擊和反射攻擊兩大類別。在直接攻擊中，攻擊者直接利用受感染的殭屍電腦發動攻擊。反射攻擊則更為複雜，攻擊者會利用中間伺服器（稱為反射器）來放大攻擊流量。

反射攻擊的原理與例項：玄貓的深入分析

反射攻擊的工作原理是，攻擊者向反射器伺服器傳送請求，這些請求的來源IP位址被偽造成受害者的IP位址。反射器伺服器隨後會向受害者發送回應，而這些回應的體積通常比原始請求大很多倍，這就是所謂的放大效應。

玄貓曾經在一次滲透測試中模擬過DNS放大攻擊。我發現，透過精心建構的DNS請求，可以使攻擊流量放大數百倍，對目標伺服器造成嚴重的影響。

DNS放大攻擊和NTP攻擊是反射攻擊的常見例子。攻擊者可以利用這些協定的漏洞，將少量的攻擊流量放大成巨大的流量，對目標造成毀滅性的影響。

直接攻擊 vs. 間接攻擊：玄貓的觀點

除了根據攻擊來源的分類別外，DDoS攻擊還可以根據流量是否直接傳送到受害者來分類別。

直接攻擊：攻擊流量直接從攻擊者傳送到受害者。
間接攻擊：攻擊者不直接攻擊受害者，而是攻擊受害者賴以運作的鏈路和其他服務。

間接攻擊的例項：玄貓的經驗分享

玄貓在參與一個網路安全專案時，曾經遇到一種名為Crossfire的間接DDoS攻擊。這種攻擊透過控制網路中的多個節點，協同攻擊目標網路的關鍵鏈路，導致網路擁塞和服務中斷。

高速率 vs. 低速率DDoS攻擊：玄貓的實戰經驗

DDoS攻擊也可以根據攻擊流量的速率進行分類別：

高速率DDoS攻擊：攻擊者傳送大量的攻擊流量到受害者，這是最常見的DDoS攻擊型別。
低速率DDoS攻擊：攻擊者以較低的速率傳送攻擊流量，使其難以與合法流量區分。

低速率攻擊的挑戰：玄貓的深入分析

玄貓認為，低速率DDoS攻擊更難以檢測和防禦，因為它們的流量模式與正常流量非常相似。攻擊者通常會利用應用層的漏洞，傳送消耗大量伺服器資源的請求，從而達到阻斷服務的目的。

根據速率動態的攻擊型別：玄貓的分類別

Mirkovic等人根據攻擊速率的動態特性，將DDoS攻擊分為四種型別：

恆定速率攻擊：攻擊速率在短時間內達到最大值，並保持恆定。
遞增速率攻擊：攻擊者逐漸增加攻擊流量的強度。
脈衝攻擊：攻擊者週期性地啟動一組殭屍電腦，向受害者傳送攻擊流量。
子群組攻擊：攻擊者將殭屍電腦分成多個群組，並以不同的組合啟動和停用這些群組，以保持攻擊的隱蔽性。

DDoS攻擊的目標：玄貓的實戰觀察

DDoS攻擊的目標範圍廣泛，從單個網站伺服器到整個國家/地區的網路連線都可能成為受害者。以下是一些常見的DDoS攻擊目標：

基礎設施：攻擊者試圖癱瘓網路系統的底層基礎設施，例如無線網路基地台、公鑰基礎設施（PKI）或全球網域名稱系統（DNS）。
鏈路：攻擊者透過傳送大量的協同流量來耗盡鏈路的容量，導致合法封包被丟棄。

為何路由器也難逃DDoS魔爪？淺談DDoS攻擊目標與防禦

DDoS（分散式阻斷服務）攻擊不僅針對伺服器或應用程式，網路中的各個環節都可能成為攻擊目標。身為一個在網路安全領域打滾多年的老兵，我發現許多人對於DDoS攻擊的理解還停留在「癱瘓網站」的層面。但實際上，攻擊者會根據目標的網路架構，選擇最有效的攻擊方式。

2.3.3 路由器：網路的交通樞紐，也是DDoS的目標

路由器是網路中負責轉發資料封包的關鍵裝置，一旦路由器遭受DDoS攻擊，整個網路的效能都會受到影響。攻擊者通常會利用以下兩種方式攻擊路由器：

路由表溢位： 路由器需要維護一個路由表，記錄到達不同目標網路的路徑。攻擊者可以傳送大量的偽造路由訊息，填滿路由表，導致路由器CPU過載或記憶體耗盡。
路由協定漏洞： 路由協定（如BGP、OSPF）負責在路由器之間交換路由訊息。攻擊者可以利用這些協定的漏洞，散播錯誤的路由訊息，幹擾正常的資料轉發。

2.3.4 作業系統：應用程式的根本，也是攻擊者的目標

作業系統是執行應用程式的基礎，如果作業系統遭受DDoS攻擊，所有在其上執行的應用程式都會受到影響。攻擊者可能會利用作業系統的漏洞，傳送惡意請求，耗盡系統資源，導致系統當機或停止回應。

2.3.5 防禦機制：保護資源的盾牌，也可能成為攻擊目標

DDoS防禦系統（如防火牆、DDoS檢測機制）本身也可能成為攻擊目標。攻擊者可能會傳送大量的惡意流量，試圖耗盡防火牆的資源，使其無法正常工作。或者，攻擊者可能會觸發DDoS檢測機制產生大量的誤報，幹擾管理員的判斷，使其無法及時發現真正的攻擊。

DDoS攻擊的現況與趨勢：攻擊手法日新月異，防禦難度不斷增加

DDoS攻擊已經存在超過十年，但隨著時間的推移，攻擊手法變得越來越複雜，攻擊規模也越來越大。根據Arbor Networks的《全球基礎設施安全報告》[4]，DDoS攻擊的流量在過去幾年中增加了數百倍。

以下是一些DDoS攻擊的現況與趨勢：

反射與放大攻擊： 攻擊者利用公共伺服器（如DNS伺服器、NTP伺服器）的回應來放大攻擊流量。例如，攻擊者可以偽造受害者的IP地址，向DNS伺服器傳送查詢請求，DNS伺服器會將回應傳送到受害者的IP地址，從而達到放大攻擊流量的效果。
多向量攻擊： 攻擊者同時使用多種不同的攻擊手法，以繞過受害者的防禦機制。例如，攻擊者可以同時傳送SYN Flood攻擊和HTTP Flood攻擊，SYN Flood攻擊用於耗盡伺服器的連線資源，HTTP Flood攻擊用於耗盡伺服器的應用程式資源。
應用層DDoS攻擊： 攻擊者傳送大量的看似合法的HTTP請求，耗盡伺服器的應用程式資源。這種攻擊的流量較低，難以與正常流量區分，因此更難以防禦。
攻擊頻率增加，持續時間縮短： DDoS攻擊的頻率越來越高，但持續時間越來越短。這可能是因為攻擊者希望在短時間內造成最大的損害，或者為了避免被防禦系統檢測到。

Incapsula的《2015年第二季度DDoS全球威脅形勢報告》也強調了DDoS攻擊的現況與趨勢。此外，物聯網（IoT）的興起也為DDoS攻擊者提供了新的機會。IoT裝置通常安全性較低，容易被攻擊者控制，成為殭屍網路的一部分，用於發動DDoS攻擊[17]。

DDoS攻擊者的優勢：隱藏身份、隨意變換，防禦方如何應對？

DDoS攻擊難以防禦的原因之一是攻擊者具有許多優勢：

偽造來源IP地址： 攻擊者可以偽造攻擊資料封包的來源IP地址，隱藏自己的身份，並利用反射與放大攻擊來放大攻擊流量。
隨意變更協定標頭： 攻擊者可以隨意變更網路協定標頭的欄位值，例如IP層的SIP和TTL，以及傳輸層的TCP Flags。
動態變更攻擊引數： 攻擊者可以隨意變更攻擊速率、殭屍網路的組成，甚至受害者的身份。攻擊者還可以混合使用多種攻擊手法，使防禦更加困難。
模擬合法流量： 攻擊流量在內容上可以與合法流量完全相同。例如，在HTTP GET或POST Flood攻擊中，攻擊者傳送大量的看似合法的HTTP請求，使防禦系統難以區分。

DDoS防禦系統的理想特性：即時、精準、全面

面對日益嚴峻的DDoS攻擊威脅，一個理想的DDoS防禦系統應具備以下特性：

即時效能： 防禦系統應能夠在攻擊癱瘓受害者之前，即時檢測到正在進行或即將發生的攻擊。

面對不斷演進的DDoS攻擊，企業需要不斷提升自身的防禦能力，才能確保業務的持續穩定執行。


```markdown

### 阻擋 DDoS 攻擊：機器學習扮演的角色

分散式阻斷服務（DDoS）攻擊日益猖獗，動輒造成網路服務癱瘓，對企業和組織構成嚴重威脅。為了有效防禦這類別攻擊，需要具備以下關鍵能力：

*   **即時性：** 能在攻擊初期快速檢測並做出反應，避免服務長時間中斷。
*   **擴充套件性：** 能處理大規模的攻擊流量，確保防禦系統不會成為新的瓶頸。
*   **服務品質（QoS）維持：** 區分攻擊流量和正常流量，避免誤判影響合法使用者經驗。
*   **來源追蹤：** 具備追蹤攻擊來源的能力，以便採取進一步的防禦措施。

### 近期 DDoS 攻擊事件

近年來，DDoS 攻擊事件頻傳，以下列舉幾起案例：

*   **荷蘭政府網站攻擊事件（2015）：** 荷蘭政府網站遭受大規模 DDoS 攻擊，癱瘓長達 10 小時。
*   **美國國家安全域性（NSA）網站攻擊事件（2013）：** NSA 網站遭受攻擊，長時間完全癱瘓，懷疑是駭客組織 Anonymous 所為。
*   **Github 攻擊事件（2015）：** 程式碼託管平台 Github 遭受大規模 DDoS 攻擊，持續 24 小時，攻擊者利用 TCP 第七層協定發動攻擊。
*   **法國網站攻擊事件（2015）：** 超過 19,000 個法國網站遭受輕微 DDoS 攻擊，目標範圍廣泛，從軍事單位到披薩店都有。

這些事件凸顯了各國政府和組織必須加強合作，共同應對 DDoS 攻擊威脅。

### 機器學習在 DDoS 防禦中的應用

機器學習是一門跨領域的研究領域，旨在讓電腦能夠從資料中學習。相較於傳統的程式設計方法，機器學習更適合解決那些人類專家難以直接編寫程式碼的問題。

以計算生物學中的微陣列資料分析為例，如何找出酵母菌資料集中未參與任何基因群組的罕見基因？在缺乏先驗知識的情況下，機器學習研究人員會開發一種非監督式學習機制，目標是達到高準確性和高效率。

機器學習方法可分為分析式學習和經驗式學習。分析式學習不需要外部輸入，而經驗式學習則需要外部知識或經驗。

#### 監督式學習與非監督式學習

機器學習方法最常見的分類別方式是監督式學習和非監督式學習。在監督式學習中，需要事先提供標記過的資料，讓演算法學習正常或已知的攻擊模式。在非監督式學習中，演算法則是在沒有任何先驗知識或人工干預的情況下，分析資料並從中學習。

監督式學習通常會建立一個預測模型，用於判斷新的資料屬於哪個類別。判斷方式是將新的資料與參考模型進行比較，例如計算相似度或相異度。因此，監督式學習非常依賴事先標記過的資料。

玄貓認為，在實際應用中，可以結合監督式學習和非監督式學習的優點，建立更有效的 DDoS 防禦系統。例如，先使用非監督式學習找出異常流量，再使用監督式學習判斷是否為惡意攻擊。


### 機器學習在DDoS檢測中的應用：相似性與相異性分析

在分散式阻斷服務（DDoS）攻擊的防禦中，機器學習扮演著越來越重要的角色。其中，監督式學習和非監督式學習是兩種主要的應用方法。監督式學習方法依賴於大量的標記資料進行訓練，若訓練資料不足或不準確，可能導致誤報率升高。另一方面，非監督式學習方法則根據某些假設，例如攻擊流量具有高度的類別內相似性，且與正常流量在統計上存在顯著差異。如果這些假設在特定網路環境中不成立，同樣會產生大量的誤報。

玄貓認為，無論是監督式還是非監督式學習，一個共同的關鍵點在於如何有效地比較測試樣本，以判斷其是否屬於預定義的類別或群體。這就涉及到選擇合適的鄰近性度量（Proximity Measure）。如果選用的度量無法捕捉到真實應用場景的本質，例如由於資料的高維度、屬性子集選擇不當或對多個敏感輸入引數的依賴，那麼機器學習方法的效能將會大打折扣。

### 鄰近性度量：相似性與相異性

鄰近性度量是衡量一對物件或樣本之間相似或相異程度的指標。相似性度量的值越大，表示物件越相似；反之，相異性度量的值越小，表示物件越相似。相似性的例子包括共現性、互動、統計相關性、關聯、社會關係以及距離的倒數。相異性的例子則包括距離、差異以及相似性的倒數。

玄貓在為某金融科技公司設計DDoS防禦系統時，發現選擇合適的鄰近性度量至關重要。例如，在高維度的網路流量資料中，傳統的歐幾裡得距離可能無法有效區分正常流量和攻擊流量，而需要使用更複雜的度量方法。

#### 常用的相異性度量

以下介紹幾種常用的相異性度量：

*   **曼哈頓距離（Manhattan Distance）：** 也稱為L1距離，計算公式如下：

    ```
    d1(P, Q) = ||P - Q||1 = ∑|pi - qi|
    ```

    曼哈頓距離總是大於等於零，對於完全相同的點，距離為零；相似度低的點，距離則較大。
*   **歐幾裡得距離（Euclidean Distance）：** 也稱為L2距離，計算公式如下：

    ```
    d(P, Q) = √(∑(pi - qi)^2)
    ```

    歐幾裡得距離同樣總是大於等於零，對於完全相同的點，距離為零；相似度低的點，距離則較大。
*   **餘弦相似度（Cosine Measure）：** 透過計算向量的點積和模長來衡量向量的相似度，公式如下：

    ```
    cos(θ) = (P.Q) / (||P|| ||Q||) = (∑(Pi × Qi)) / (√(∑(Pi)^2) × √(∑(Qi)^2))
    ```
*   **漢明距離（Hamming Distance）：** 計算兩個等長字串之間不同符號的數量。例如，字串P (101001) 和 Q (101101) 之間只有一個符號不同，因此漢明距離為1。

#### 常用的相關性度量

相關性度量用於衡量兩個資料集之間的相關程度。以下介紹幾種常用的相關性度量：

*   **皮爾遜相關係數（Pearson Correlation）：** 是統計學中最常用的相關性度量，用於衡量兩個變數之間的線性相關程度。
*   **斯皮爾曼等級相關（Spearman Rank Correlation）：** 衡量兩個變數等級之間的相關性，適用於非線性關係。
*   **肯德爾相關係數（Kendall Correlation）：** 也是一種非引數的相關性度量，用於衡量兩個變數之間的一致性。
*   **位移和縮放相關（Shifting-and-Scaling Correlation）：** 用於衡量一個物件是否是另一個物件的變換變體。
*   **歸一化平均殘差相似度（Normalized Mean Residue Similarity, NMRS）：** 用於衡量兩個物件之間的相似度，特別是在一個物件是另一個物件的殘差的情況下。

玄貓認為，選擇合適的鄰近性度量需要根據具體的應用場景和資料特點進行權衡。例如，在高維度資料中，餘弦相似度可能更有效；而在需要快速計算的場景中，漢明距離可能更合適。

**總結**

機器學習在DDoS防禦中具有廣闊的應用前景，但選擇合適的鄰近性度量是提高檢測準確性的關鍵。不同的度量方法各有優缺點，需要根據具體場景進行選擇和調整。

### 多元相關性分析：從 Pearson 到 SSSim，DDoS 防禦的量化利器

在分散式阻斷服務（DDoS）攻擊的防禦中，理解和量化不同資料集之間的關聯性至關重要。相關性分析提供了一種有效的方法，幫助我們識別潛在的攻擊模式，並據此調整防禦策略。本文將探討幾種常用的相關性分析方法，從經典的 Pearson 相關係數到更為複雜的 Shifting-and-scaling 相關性（SSSim），並探討它們在 DDoS 防禦中的應用。

#### Pearson 相關係數：線性關係的基礎衡量

Pearson 相關係數，又稱 Pearson 乘積矩相關係數（PPMC），是最廣為人知的相關性度量之一。它衡量了兩個資料集之間線性關係的強度和方向。

其計算公式如下：

`r_pq = cov_pq / (σ_p * σ_q)`

其中 `cov_pq` 是 P 和 Q 的共變異數，計算公式為：

`cov_pq = Σ( (p_i - P') * (q_i - Q') ) / (N - 1)`

這裡，P 和 Q 代表兩個變數，N 是配對觀測的數量，P' 和 Q' 分別是 P 和 Q 的平均值。Pearson 相關係數的值介於 -1 和 +1 之間，-1 表示完全負相關，+1 表示完全正相關，0 表示無線性相關。

**玄貓提示：** 雖然 Pearson 相關係數在許多情況下都很有用，但它僅能捕捉線性關係。如果變數之間的關係是非線性的，Pearson 相關係數可能無法準確反映它們的關聯性。

#### Spearman 等級相關：非引數關聯性檢測

Spearman 等級相關是一種非引數檢定，用於評估兩個等級變數或一個等級變數和一個測量變數之間的關聯性。與 Pearson 相關係數不同，Spearman 等級相關不對資料的分佈做任何假設，因此更適用於變數至少為有序尺度，且一個變數的分數與另一個變數相關的情況。

Spearman 等級相關係數的計算公式如下：

`ρ = 1 - (6 * Σd_i^2) / (n * (n^2 - 1))`

其中，ρ 是 Spearman 等級相關係數，`d_i` 是對應值 `p_i` 和 `q_i` 的等級之差，n 是每個資料變數中的值的數量。

#### Kendall 相關：衡量變數間的依賴強度

Kendall 等級相關也是一種非引數檢定，用於衡量兩個變數之間的依賴強度。考慮兩個樣本 P 和 Q，每個樣本的大小為 n，P 和 Q 之間可能的配對總數為 n(n - 1) / 2。

Kendall 等級相關係數的計算公式如下：

`τ = (n_c - n_d) / (0.5 * n * (n - 1))`

其中，`n_c` 是協和值的數量，`n_d` 是不協和值的數量。

#### Shifting-and-Scaling 相關（SSSim）：更穩健的相關性度量

SSSim 是一種穩健的相關性度量，可以處理物件對之間的平移、縮放、絕對和 Shifting-and-Scaling 相關性。SSSim 最初被引入用於檢測基因表達資料中具有高度相關性的基因對。由於該度量使用區域性均值的概念（使用小執行視窗內的連續值計算），因此它對嘈雜的表達值具有很強的魯棒性。

**玄貓解說：** 區域性均值是指物件 `P_i` 在條件 `c_j` 下的均值，它是 `P_i(c_{j-1})`、`P_i(c_j)` 和 `P_i(c_{j+1})` 的均值（當 j 不等於 1 或 n 時，n 是條件的總數）。如果 j = 1，則區域性均值 = mean[ `P_i(c_j)` , `P_i(c_{j+1})` ]。如果 j = n，則區域性均值 = mean[ `P_i(c_{j-1})` , `P_i(c_j)` ]。

**玄貓解說：** 基線條件對是用作參考條件或屬性對的條件或屬性對。其他條件（屬性）對與該對之間的差異的比率用於 SSSim 分數的計算。

假設 `P_1 = {p_1, p_2, p_3, p_4, ..., p_n}` 和 `P_2 = {q_1, q_2, q_3, q_4, ..., q_n}` 表現出 Shifting-and-Scaling 模式，並且第一個和第二個條件是 `1 ≤ k ≤ (n - 1)` 的基線條件對。那麼，我們有：

`(p_{k+1} - p_k) / (p_2 - q_1) = (q_{k+1} - q_k) / (q_2 - q_1)`

根據此公式，提出了 SSSim 度量。如果 `(P_1, P_2)` 是一對物件，則 `(P_1, P_2)` 的 SSSim 給出為：

`SSSim(P_1, P_2) = 1 - Σ | (p_{i+1} - p_i) / (p_2 - p_1) - (q_{i+1} - q_i) / (q_2 - q_1) | / (2 * max(|lmean_i - (p_{i+1} - p_i) / (p_2 - p_1)|, |lmean_i - (q_{i+1} - q_i) / (q_2 - q_1)|) * (n - 2))`

其中，`lmean_i` 的定義取決於 i 的值。

任何基因表達對的 SSSim 分數範圍為 [0, 1]，並且不需要歸一化。如果 SSSim 分數的值為 1，則物件完全表現出 Shifting-and-Scaling 相關性。該度量引入了物件在條件或屬性下的區域性均值 `lmean_i`，而不是所有表示式的均值，以使其對嘈雜值具有魯棒性。

#### Normalized Mean Residue Similarity (NMRS)

玄貓說明：歸一化平均殘差相似度 (NMRS) 是一種相關性度量，可以區分兩個給定物件之間的平移模式（值為 1）與平移和反相關模式（值為 0）。

物件對 `P = {a_1, a_2, a_3 ... a_n}` 和 `Q = {b_1, b_2, b_3 ... b_n}` 之間的 NMRS 定義為

`NMRS(P, Q) = 1 - Σ |a_i - a_mean - b_i + b_mean| / (2 * max(Σ |a_i - a_mean|, Σ |b_i - b_mean|))`

其中 `a_mean` 是物件 P 的所有元素的平均值；`a_mean = {a_1 + a_2 + a_3 + ... + a_n} / n`；`b_mean` 是物件 Q 的所有元素的平均值；`b_mean = {b_1 + b_2 + b_3 + ... + b_n} / n`

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。