GQM方法衡量與系統最佳化實踐

GQM 方法的核心價值在於提供結構化框架，引導團隊聚焦於與專案目標相關的指標。實務上，從定義目標開始，進而提出對應問題，並設計資料收集策略及指標計算方式，最終用於系統效能衡量與最佳化方向的判斷。案例研究中，團隊遭遇 Foo Service API 速率限制問題導致系統故障，藉由 GQM 方法，重新檢視系統架構，並匯入新的監控機制，有效提升系統穩定性。為確保 GQM 方法的有效實施，文章提供 GQM 工作坊的實施，引導團隊達成共識，並將 GQM 方法應用於實際專案中。此外，軟體架構與系統品質息息相關，GQM 方法可與軟體架構分析結合，評估和改進系統的架構特性，如可擴充套件性、可維護性和安全性，進一步提升軟體品質。

以目標-問題-指標（GQM）方法衡量未知數

優先排序指標並設計資料收集策略

僅僅瞭解如何衡量目標是不夠的，還必須規劃如何進行測量。如果在頭腦風暴階段對問題和指標的思考足夠充分，GQM樹應該會有多個分支。在實踐中，並非所有指標都能提供強烈的訊號；有些指標在計算上可能不切實際或成本過高。在決定如何收集資料之前，最好先對GQM樹進行一些修剪。

重點指標篩選

最好專注於那些能夠提供強烈訊號且計算成本低廉的指標。首先識別出能夠提供最強訊號的關鍵指標。接下來，尋找可以用來回答多個問題的指標。如果某些問題可以透過多個指標來回答，請仔細考慮是否所有指標都是必要的。請記住，包含正面和負面指標（即表示成功和表示失敗的指標）是非常有用的，這樣可以保持客觀。

  graph TD
    A[開始] --> B[識別關鍵指標]
    B --> C[評估指標價值]
    C --> D[優先選擇高價值指標]
    D --> E[資料收集規劃]

圖表翻譯： 此圖示展示了GQM方法中指標優先排序的流程，從識別關鍵指標開始，到最終的資料收集規劃為止。

資料需求考量

接下來，請考慮計算指標所需的資料。如果尚未對指標進行精確定義，請立即進行。擴充套件GQM樹（如圖10-2所示）以視覺化資料的使用位置。一項資料能夠幫助計算的指標越多，其價值就越高。圖10-3展示了一個擴充套件的GQM樹，將資料與指標連線起來。那些能夠支援高價值指標且收整合本低廉的資料應該是您的首要選擇。

資料來源與收集方法

資料可以來自多種來源，取決於您要測量的內容。您可能需要對程式碼進行檢測以記錄必要的資料。有關開發流程或方法的資料可能來自調查或從任務資料函式庫中取得。有關程式碼的資料可以從原始碼倉函式庫中提取或使用靜態分析工具獲得。對於短期、快速的實驗，有時最簡單、最便宜的方法是手動收集幾天的資料。重要的是，您要知道從哪裡取得計算指標所需的資料。

資料收集計劃

此時，您已經具備了足夠的資訊來制定具體的資料收集和指標計算計劃。根據目標的不同，可能不需要計算所有指標或回答所有問題。決定您需要做哪些工作，例如記錄和收集資料、計算指標和構建儀錶板。與團隊和任何其他利益相關者分享計劃，然後將計劃付諸實施。

案例研究：學會預見未來的團隊

現在您已經瞭解了GQM方法的基本思想，讓我們透過一個具體的案例研究來展示如何在實踐中使用它。在這個案例研究中，您將閱讀一個開發團隊面臨的兩次服務中斷事件的故事。在他們對第一次事件進行的事後分析中，團隊使用GQM來識別哪些指標能夠讓他們更早地瞭解事件。他們透過改善操作可視性和對架構進行重要更改做出了回應。九個月後，當類別似問題再次發生時，這些指標受到了考驗。這一次，由於他們所做的更改，團隊在使用者之前就瞭解了問題，並輕鬆地將本來可能成為重大故障的事件轉變為短暫的不便。

系統背景

本案例研究中的系統依賴第三方服務進行某些資料操作。其中一些第三方服務施加了API速率限制。架構使用佇列來確保資料最終由第三方服務處理並管理對這些服務的請求量。技術本身並不如架構模式重要。圖10-4展示了架構相關部分的上下文圖。

  graph LR
    A[系統] --> B[第三方服務]
    A --> C[工作佇列]
    B --> D[速率限制]
    C --> E[工作流程管理]
    D --> F[請求管理]
    E --> G[資料分析]

圖表翻譯： 此圖示描述了系統與第三方服務之間的關係，以及工作佇列在管理請求和工作流程中的作用。

關鍵技術挑戰

在這個系統中，一個重要的第三方服務（稱為Foo服務）根據許可協定施加了API請求限制。當向Foo服務發出的請求數量超過許可協定中定義的閾值時，Foo服務將拒絕請求並傳回“速率限制超出”回應。後續請求將繼續被拒絕，直到計算出的速率降至約定閾值以下。系統同時實施了小時和日速率限制，以及對請求大小和總計算負載的限制。

程式碼範例

def calculate_rate_limit(requests, limit):
    """
    計算請求速率是否超出限制
    
    :param requests: 請求數量
    :param limit: 速率限制
    :return: 是否超出速率限制
    """
    if requests > limit:
        return True
    else:
        return False

# 使用範例
requests_count = 1000
rate_limit = 500
if calculate_rate_limit(requests_count, rate_limit):
    print("超出速率限制")
else:
    print("在速率限制內")

內容解密：

函式定義：calculate_rate_limit函式用於計算請求速率是否超出給定的限制。
引數說明：函式接受兩個引數，requests代表請求數量，limit代表速率限制。
邏輯判斷：函式內部透過比較請求數量和速率限制來判斷是否超出限制。
傳回值：如果請求數量大於速率限制，傳回True，否則傳回False。
使用範例：展示瞭如何呼叫calculate_rate_limit函式並根據傳回值進行相應操作。

透過上述範例，我們可以看到如何在程式碼中實作速率限制的檢查，並根據檢查結果採取相應的措施。

如何利用GQM方法預測和預防系統故障

在現代軟體系統中，預測和預防故障是確保系統穩定性和使用者滿意度的關鍵。本文將透過一個真實的案例研究，介紹如何利用GQM（目標-問題-指標）方法來預測和預防系統故障，並探討其在實際應用中的效果。

事件背景

在某個星期一凌晨，Foo Service開始拒絕請求，原因是API速率限制被超出。由於Foo Service的速率限制是整個軟體系統共用的，這影響了多個元件。幾小時內，工作佇列中等待處理的任務數量急劇增加，使用者開始感受到影響。

經過調查，團隊發現每週末都會有一批大量資料上傳到Foo Service，以便在星期一早上供內部使用者使用。一個儲存解決方案的故障，加上批處理操作的錯誤，導致批處理操作積極重試對Foo Service的API請求，最終超出了速率限制。停止失控的批處理操作後，系統慢慢還原。修復儲存解決方案後，批處理操作成功完成。

匯入GQM方法

在事後分析中，開發團隊決定利用GQM方法來找出問題並預防類別似事件的發生。團隊首先定義了目標：在問題影響使用者之前發現並解決涉及Foo Service的問題。為了實作這一目標，團隊集思廣益，提出了以下問題和對應的指標：

指標規劃

問題	指標
目前的Foo Service API使用情況	Foo Service報告的API使用率
距離超出Foo Service速率限制有多近？	剩餘API呼叫次數（總配額 - 報告使用量）
各元件的API配額剩餘比例	各元件的API配額剩餘比例（元件已使用量/元件分配配額）
Foo Service是否正常，或是連線Foo Service時出現問題？	心跳檢查是否成功（布林值指標，容忍短暫錯誤）
合成流量是否與Foo Service同步（布林值指標）	15分鐘視窗內的請求超時比例
	15分鐘視窗內的認證錯誤請求比例
任務是否正常運作？	總請求數量
	正常、錯誤和超時回應的數量
	15分鐘視窗內的錯誤回應比例
是否能夠跟上請求負載？	工作佇列深度（待處理和正在處理的任務數量）
	平均佇列深度隨時間變化
	平均、p99、p95任務處理時間
	平均任務吞吐量（單位時間內的任務數量）

系統架構改進

在確定了需要收集的指標後，團隊發現了幾個架構上的缺陷：

資料僅在系統負載時記錄：團隊引入了一個新的心跳元件來檢查Foo Service的可用性。Foo Service提供了一個計量API，客戶可以透過它檢查當前的API使用情況並確認Foo Service的可存取性。
故障處理和重試的責任不明確：團隊重新設計了架構，將故障處理的責任分配給工作佇列，而不是任務本身。這樣可以避免任務重試失敗的請求，從而加劇事件的影響。
缺乏對問題的回應機制：團隊制定了明確的回應計劃，包括監控指標、診斷API和還原工具。

實際效果

大約九個月後，Foo Service的一次組態變更導致了系統完全宕機，持續了14小時。然而，這次團隊已經準備好了。他們在10分鐘內收到了根據所定義指標的警示，並迅速確認問題出在Foo Service上。團隊按照計劃停用了一些警示，並監控指標以雙重檢查任務失敗是否按照預期進行了指數退避重試。

在工作日開始前，團隊向內部使用者發送了電子郵件，告知相關問題。這一切得益於他們之前利用GQM方法進行的系統改進和指標監控。

#### 內容解密：

本文透過GQM方法展示瞭如何預測和預防系統故障。首先，團隊定義了目標並提出了相關問題和指標。接著，透過改進系統架構和引入新的監控機制，團隊能夠更早地發現問題並採取行動。最終，這些努力在一次重大的系統宕機事件中得到了驗證，團隊能夠迅速回應並最小化對使用者的影響。

圖表翻譯：

此圖表展示了利用GQM方法預測和預防系統故障的流程。首先，團隊定義了目標並提出了相關問題。接著，團隊定義了關鍵指標並收集相關資料。根據收集到的資料，團隊改進了系統架構並實施了監控和回應機制。最終，這些努力幫助團隊最小化了系統故障對使用者的影響。

隨著系統變得越來越複雜，利用GQM方法來預測和預防故障將變得更加重要。未來，團隊可以進一步擴充套件GQM方法，不僅僅侷限於Foo Service，而是應用於整個系統的各個方面。同時，結合機器學習和人工智慧技術，可以進一步提高故障預測的準確性和效率。

總之，GQM方法是一種強大的工具，可以幫助團隊提高系統的穩定性和可靠性。透過不斷地實踐和改進，團隊可以更好地應對日益複雜的系統挑戰，為使用者提供更好的服務。

使用目標-問題-指標（GQM）方法進行系統最佳化

在軟體開發與系統維運的過程中，如何有效地衡量系統的表現並找出改進的方向，是一個重要的課題。目標-問題-指標（GQM）方法提供了一種結構化的分析框架，幫助團隊定義合適的指標並收集相關資料，從而更好地實作系統最佳化與改進。

案例研究：使用GQM方法應對系統故障

某個技術團隊在一次嚴重的系統故障中，利用GQM方法對系統設計進行了最佳化。他們透過定義具體的目標、提出關鍵問題並找出合適的指標，成功地改進了系統的維運可視性和事件回應策略。

事件經過

在一次系統故障中，某個關鍵服務（Foo Service）意外下線，導致整個系統受到影響。團隊透過快速應用GQM方法，定義了系統還原和最佳化所需達到的目標，並提出了關鍵問題以評估系統的表現。

透過這些問題，他們確定了需要收集的指標，例如系統還原時間、錯誤率等。這些指標幫助團隊更好地理解系統的執行狀態，並找出需要改進的部分。

系統還原與最佳化

在事件處理過程中，團隊透過收集和分析相關指標，成功地監控系統還原的過程。九個月前曾經是關鍵問題的故障，現在變得不再那麼重要。當Foo Service重新上線後，系統如預期般自動還原，團隊透過監控系統指標觀察到一切在幾個小時內還原正常。

舉辦GQM工作坊

GQM方法不僅適用於個人或小團隊的分析，也可以作為一種結構化的協作工作坊，讓不同背景的利益相關者共同參與。

工作坊目標

工作坊的目標是建立對特定目標下指標和資料收集的共識和共同責任。參與者需要了解為什麼需要特定的指標以及如何計算這些指標。

工作坊的益處

透過強調利益相關者的目標作為測量的基礎，這種工作坊增強了對指標和資料收集計劃的信心。同時，邀請利益相關者參與可以提高對最終指標和資料收集計劃的認可度，並促進更深入的分析。

此外，工作坊本身也展示了結構化分析的使用，讓參與者在未來有機會將GQM方法應用於其他情境。

參與者

工作坊可以邀請技術與非技術的利益相關者參與，根據目標的不同，非技術利益相關者的參與可能至關重要。例如，如果目標與特定的業務流程相關，則需要該領域的專家參與。如果目標與產品發布相關，則產品管理、市場行銷、設計和銷售等相關人員應參與。至少應有一名軟體開發人員參與。

工作坊準備與材料

在工作坊之前，準備一個初步的目標陳述，以作為討論的起點。根據目標的不同，選擇合適的參與者。

如果工作坊是實體進行的，只需要一個大白板和白板筆。如果是遠端進行，則可以使用虛擬白板（如Miro）或共同編輯的檔案（如Google Docs）。

工作坊成果

工作坊結束後，應該達成以下成果：

得到所有利益相關者認可的目標陳述
描述目標特徵的一系列問題
優先排序的指標列表，並與其對應的問題建立關聯
指標的定義（正式或非正式）
計算指標所需的資料列表

工作坊步驟

介紹工作坊並說明基本規則：例如，「今天我們將共同定義評估即將到來的產品發布所需的指標，請大家保持友善、互相尊重。」
寫下目標陳述：確保所有參與者都能看到該目標。如果使用實體白板，預留足夠的空間來新增問題和指標。
邀請參與者提出問題：例如，「為了評估是否達到這個目標，我們需要回答哪些問題？」持續收集問題直到時間用完或參與者無法再提出。
選擇一個問題並邀請參與者集思廣益提出指標：記錄下這些指標，並將它們與能夠回答的問題建立聯絡。鼓勵參與者發揮創意，不必過於擔心如何計算或收集資料。
進行合理性檢查：檢查這些指標是否有助於評估目標，目標是否需要重新定義，或是否需要考慮新的目標。
確定計算每個指標所需的資料：可能需要更精確地定義指標。
優先排序指標：可以使用多種方法，例如識別「必備」指標、找出能夠回答多個問題的「高價值」指標，或使用點投票法。
開放討論與反思：是否有任何驚人的發現？對最重要的指標是否達成共識？是否有指標看起來有問題或成本過高？
記錄並分享工作坊成果：必要時，準備一份報告描述工作坊的發現。

程式碼範例：指標計算

def calculate_system_recovery_time(start_time, end_time):
    """
    計算系統還原時間
    
    :param start_time: 系統故障開始時間
    :param end_time: 系統還原時間
    :return: 還原時間（小時）
    """
    recovery_time = end_time - start_time
    return recovery_time.total_seconds() / 3600

# 使用範例
import datetime
start_time = datetime.datetime(2023, 10, 1, 12, 0, 0)
end_time = datetime.datetime(2023, 10, 1, 15, 0, 0)
recovery_time_hours = calculate_system_recovery_time(start_time, end_time)
print(f"系統還原時間: {recovery_time_hours} 小時")

內容解密：

此程式碼定義了一個函式 calculate_system_recovery_time，用於計算系統從故障到還原所需的時間。函式接受兩個引數：start_time 和 end_time，分別表示系統故障的開始時間和系統還原的時間。函式傳回系統還原所需的時間，以小時為單位。

首先，程式碼計算 end_time 和 start_time 之間的差值，並將其轉換為秒數。最後，將秒數轉換為小時數並傳回結果。範例中展示瞭如何使用該函式計算系統還原時間，並將結果列印出來。

圖表範例：系統還原過程

  graph LR;
    A[系統故障] --> B[開始修復];
    B --> C[收集指標];
    C --> D[分析資料];
    D --> E[系統還原];
    E --> F[監控系統狀態];

圖表翻譯： 此圖表展示了系統從故障到還原的過程。首先，系統發生故障，接著進入修復階段。在修復過程中，團隊會收集相關指標並進行資料分析。完成分析後，系統逐漸還原正常，最後進入監控階段以確保系統穩定執行。

隨著技術的不斷進步，GQM方法可以進一步結合自動化工具和機器學習技術，提升指標收集和分析的效率。同時，團隊也可以探索將GQM方法應用於更多的場景，例如業務流程最佳化和產品開發，以實作更廣泛的應用價值。

軟體度量與GQM方法論深度解析

軟體開發過程中，度量（Measurement）是確保專案成功的關鍵因素之一。透過度量，團隊能夠更準確地掌握專案狀態、評估系統品質，並據此做出明智的決策。目標-問題-度量（Goal-Question-Metric, GQM）方法論是一種系統化的度量方法，幫助團隊定義和實作專案目標。本文將探討GQM方法論，並結合實際案例進行解析。

GQM工作坊實施

準備階段

在進行GQM工作坊之前，團隊需要明確工作坊的目標和預期成果。以下是一些準備階段的建議：

明確目標：確保所有參與者都清楚工作坊的主要目標。
選擇參與者：邀請具有不同背景和專業知識的團隊成員參與工作坊。
準備材料：準備必要的材料，如白板、便利貼、標記筆等。

工作坊流程

頭腦風暴：使用便利貼進行頭腦風暴，每張便利貼寫一個問題或度量指標。
- 注意事項：鼓勵參與者自由發想，避免過早對想法進行評估。
問題歸類別與去重：將所有便利貼上的問題和度量指標進行歸類別，並去除重複的內容。
- 實踐建議：指定一位參與者負責讀出所有便利貼上的內容，並進行初步歸類別。
定義度量指標：確定需要哪些度量指標來回答所提出的問題。
- 實踐技巧：在定義度量指標時，先忽略資料收集的難易程度，專注於確定需要哪些指標。一旦確定了指標，再思考如何計算它們。
識別資料重用機會：檢查是否有可以重複使用的度量指標或資料。
- 實踐建議：鼓勵參與者思考如何利用現有的資料來回答多個問題。
考慮系統架構：對於與系統相關的問題，考慮系統架構對資料收集的影響。
- 實踐技巧：邀請熟悉系統架構的成員參與工作坊，以協助評估資料收集的成本。

工作坊範例

圖10-5展示了一個在GQM工作坊中建立的GQM樹範例，該工作坊的目標是識別可用於標記欺詐調查的分析指標。工作坊結束後，協調者準備了一份書面摘要，精確定義了討論的度量指標。利益相關者在後續會議中對這些指標進行了優先排序。在這個案例中，資料收集和度量計算是直接影響架構設計和專案範圍的關鍵系統需求。

  graph LR;
    A[目標] --> B[問題];
    B --> C[度量指標];
    C --> D[資料收集];
    D --> E[分析與決策];

圖表翻譯： 此圖示展示了GQM方法論的流程，從定義目標開始，逐步細化到提出問題、確定度量指標、進行資料收集，最終用於分析和決策。

GQM方法論的核心價值

GQM方法論的核心價值在於它提供了一個結構化的框架，幫助團隊將注意力集中在與專案目標相關的度量指標上。透過GQM，團隊能夠：

明確專案目標：確保所有團隊成員對專案目標有清晰的理解。
提出關鍵問題：圍繞專案目標提出關鍵問題，確保度量指標的相關性。
定義有效度量指標：根據提出的問題，定義能夠有效回答這些問題的度量指標。

GQM的實際應用案例

在軟體架構評估和技術債務管理中，GQM方法論展現了其強大的實用價值。例如，在評估一個複雜分散式系統的品質時，GQM幫助團隊識別了關鍵的度量指標，如系統的可用性、效能和可維護性。這些指標不僅幫助團隊評估系統的當前狀態，也為未來的改進提供了明確的方向。

GQM與軟體架構的關係

軟體架構是影響系統品質的關鍵因素之一。GQM方法論可以與軟體架構分析相結合，幫助團隊評估和改進系統的架構特性，如可擴充套件性、可維護性和安全性。

架構適應性函式

架構適應性函式（Architecture Fitness Functions）是GQM方法論在軟體架構領域的一個重要應用。它們是一組用於評估和確保系統架構特性滿足預期目標的機制。透過定義適當的適應性函式，團隊可以在持續整合/持續佈署（CI/CD）流程中自動化地檢查架構特性是否符合預期。

public class ArchitectureFitnessFunctionExample {
    @Test
    public void testCouplingBetweenComponents() {
        // 檢查元件之間的耦合度是否在可接受範圍內
        assertTrue(calculateCoupling() < acceptableCouplingThreshold);
    }
    
    private double calculateCoupling() {
        // 計算元件之間的耦合度
        // ...
        return coupling;
    }
}

內容解密：

上述Java程式碼範例展示了一個簡單的架構適應性函式，用於檢查軟體元件之間的耦合度是否在可接受的範圍內。透過這種方式，團隊可以在每次構建時自動檢查架構特性，確保系統的品質。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。