提升模型預測能力 Lift Chart 分析技術

在資料驅動的決策中，預測模型扮演著至關重要的角色。評估這些模型的效能是確保其有效性的關鍵步驟。Lift Chart 作為一種視覺化工具，能有效地展現模型的預測能力，特別是在分類別問題中。它透過比較模型的預測結果與隨機預測結果，揭示模型在不同分位點的預測效率。這對於在直接行銷、客戶回應預測等場景中制定精準的策略至關重要，例如，可以根據 Lift Chart 識別高回應客戶群體，從而最佳化資源分配並提升投資回報率。此外，理解 Lift Chart 的原理和應用，也有助於我們更深入地理解模型的行為，並進一步提升模型的預測準確性。

Lift Chart 分析：提升模型預測能力

在評估模型預測能力時，Lift Chart是一種重要的視覺化工具，能夠幫助我們瞭解模型的預測能力。下面，我們將透過一個實際案例來探討如何使用Lift Chart進行分析。

Lift Chart 基礎概念

Lift Chart是一種統計圖表，用於展示模型預測的準確性和效率。它透過比較模型的預測結果與隨機預測結果來評估模型的效能。Lift Chart通常用於評估分類別模型的效能，特別是在直接行銷和客戶回應預測中。

案例資料

假設我們有一個預測模型，用於預測客戶是否會回應某個促銷活動。模型輸出了一個預測機率值，表示客戶回應的可能性。下面是部分資料：

預測機率	客戶回應
0.8	1
0.7	0
0.9	1
…	…

Lift Chart 分析步驟

資料準備：首先，我們需要準備好資料，包括預測機率值和實際回應結果。
資料排序：將資料按照預測機率值從高到低排序。
累積實際值：計算每個分位點（Decile）的累積實際回應值。
繪製Lift Chart：使用累積實際值和預測機率值繪製Lift Chart。

Lift Chart 解釋

Lift Chart可以幫助我們瞭解模型的預測能力和效率。透過分析Lift Chart，我們可以：

評估模型的預測準確性
確定模型的優勢和劣勢
最佳化模型的引數和演算法

實際案例

假設我們有一個預測模型，用於預測客戶是否會購買某個產品。模型輸出了一個預測機率值，表示客戶購買的可能性。下面是部分資料：

預測機率	客戶購買
0.8	1
0.7	0
0.9	1
…	…

透過Lift Chart分析，我們可以看到模型的預測能力和效率。

Lift Chart 圖表

  graph LR
    A[Decile] --> B[累積實際值]
    B --> C[預測機率值]
    C --> D[Lift 值]
    D --> E[模型評估]

圖表翻譯：

上述Mermaid圖表展示了Lift Chart的基本結構，包括Decile、累積實際值、預測機率值和Lift值。透過這個圖表，我們可以清晰地看到模型的預測能力和效率。

評估分類別器的效能

在評估分類別器的效能時，我們需要考慮多個因素。由於有許多不同的分類別器和預測方法可供選擇，每種方法都有其自身的優缺點和特點，因此我們需要有一套標準來評估其效能。

評估標準

一個自然的評估標準是分類別錯誤的機率。分類別錯誤是指觀察到的資料被分類別到錯誤的類別中。理想情況下，分類別器不應該出現任何錯誤，但是由於現實世界中的噪音和資訊不足，完全準確的分類別器是難以實作的。因此，我們需要定義一個最低的效能標準，作為評估分類別器的基礎。

基準：天真規則

一個簡單的分類別規則是根據大多數類別進行分類別，忽略所有預測變數（x1, x2,…, xp）的資訊。這種規則被稱為天真規則，主要用於評估更複雜的分類別器的效能。理論上，任何使用外部預測資訊的分類別器都應該優於天真規則。根據天真規則的效能衡量標準可以評估某個分類別器相比天真規則的效能提升。

效能衡量

效能衡量是評估分類別器效能的重要指標。常見的效能衡量標準包括準確率、精確率、召回率、F1分數等。這些指標可以幫助我們瞭解分類別器的優缺點和特點。

Lift Chart

Lift Chart是一種用於評估分類別器效能的圖表，展示了分類別器的累積收益率。透過分析Lift Chart，可以瞭解分類別器在不同_decile_下的效能，從而評估其優缺點。

Decile-wise Lift Chart

Decile-wise Lift Chart是Lift Chart的一種變體，根據資料集的_decile_對資料進行劃分，展示了分類別器在每個_decile_下的效能。這種圖表可以幫助我們瞭解分類別器在不同資料集下的效能差異。

圖表翻譯：

  graph LR
    A[評估標準] --> B[天真規則]
    B --> C[效能衡量]
    C --> D[Lift Chart]
    D --> E[Decile-wise Lift Chart]

上述圖表展示了評估分類別器效能的流程，從評估標準開始，到天真規則、效能衡量、Lift Chart和Decile-wise Lift Chart等步驟。這個流程可以幫助我們全面地瞭解分類別器的優缺點和特點。

分類別預測的挑戰與機會

在分類別預測中，僅憑藉目標變數（y）的資訊是不夠的，尤其是當面臨著多個預測變數的情況時。就像在數值預測中，我們使用樣本均值（ ̄y）作為基準一樣，在分類別預測中，我們也需要考慮如何有效地利用預測變數來改善分類別的準確性。

類別分離與預測變數

類別之間的分離程度對於分類別預測的難易程度有著重要的影響。如果類別之間可以被預測變數清晰地分開，即使是小型資料集也能夠找到一個良好的分類別器。相反，如果類別之間沒有明顯的分離，即使擁有大量的資料，也不一定能夠找到一個有效的分類別器。圖5.4展示了這一點，在兩個類別的情況下，頂部面板展示了一個小型資料集（n = 24），其中兩個預測變數（收入和地塊大小）被用來區分業主和非業主。這裡，預測變數似乎很有用，因為它們能夠將兩個類別區分開來。底部面板展示了一個更大的資料集（n = 5000），其中兩個預測變數（收入和…）被用來進行分類別。

內容解密：

上述內容強調了在分類別預測中，僅憑藉目標變數是不夠的，需要結合預測變數來提高分類別的準確性。同時，也提到了類別之間的分離程度對於分類別預測的影響。如果類別可以被預測變數清晰地分開，即使小型資料集也能找到良好的分類別器。

圖表翻譯：

圖5.4展示了兩個不同的資料集，在頂部面板中，小型資料集（n = 24）展示了兩個預測變數（收入和地塊大小）如何將業主和非業主區分開來。在底部面板中，大型資料集（n = 5000）展示了即使擁有大量資料，如果類別之間沒有明顯的分離，也不一定能找到有效的分類別器。這一圖表視覺化了類別分離對於分類別預測的重要性。

  flowchart TD
    A[目標變數] --> B[預測變數]
    B --> C[類別分離]
    C --> D[分類別器]
    D --> E[預測結果]

圖表解釋：

上述Mermaid圖表展示了從目標變數到預測結果的流程。首先，目標變數被用來確定需要進行分類別預測。接下來，預測變數被結合進來以提高分類別的準確性。然後，類別之間的分離程度被評估，以確定是否能找到一個有效的分類別器。最後，根據前面的步驟，進行分類別預測並得到最終的預測結果。

房地產投資分析

在房地產投資中，瞭解不同變數之間的關係對於做出明智的投資決策至關重要。以下將探討房屋大小、收入水平、房屋所有權狀態、信用評分以及信用卡使用情況等因素對房地產投資的影響。

房屋大小與收入水平

房屋大小通常以平方英尺（sqft）來衡量，而收入水平則以千美元（$000s）表示。研究表明，房屋大小和收入水平之間存在著一定的相關性。一般而言，收入水平越高的人們往往能夠購買更大的房屋。然而，這種相關性也受到其他因素的影響，例如地區、生活方式和個人偏好。

房屋所有權狀態

房屋所有權狀態可以分為業主（owner）和非業主（nonowner）兩類別。業主通常具有更高的社會地位和穩定性，而非業主可能面臨著更高的生活成本和不確定性。瞭解房屋所有權狀態可以幫助投資者評估潛在租戶或購買者的需求和偏好。

信用評分和信用卡使用

信用評分是衡量個人信用度的一個重要指標，而信用卡使用則反映了個人對信用工具的依賴程度。一般而言，信用評分越高的人們往往具有更好的信用紀錄和更低的信用風險。然而，過度使用信用卡可能會增加個人債務負擔和信用風險。

內容解密：

以上所述的變數之間的關係可以透過資料分析和統計模型來量化。例如，透過迴歸分析可以評估房屋大小、收入水平、房屋所有權狀態、信用評分和信用卡使用之間的相關性和影響程度。這些分析結果可以為房地產投資者提供有價值的參考資訊，幫助他們做出更明智的投資決策。

  graph LR
    A[房屋大小] -->|正相關|> B[收入水平]
    B -->|影響|> C[房屋所有權狀態]
    C -->|影響|> D[信用評分]
    D -->|影響|> E[信用卡使用]

圖表翻譯：

以上的Mermaid圖表展示了房屋大小、收入水平、房屋所有權狀態、信用評分和信用卡使用之間的關係。圖表中，每個變數之間的箭頭表示著變數之間的相關性和影響方向。這個圖表可以幫助投資者快速理解不同變數之間的複雜關係，並做出更合理的投資決策。

分類別器效能評估

在評估分類別器的效能時，需要考慮多個方面，以確保模型的準確性和有效性。以下是評估分類別器效能的一些關鍵指標和方法。

分類別矩陣（Confusion Matrix）

分類別矩陣是一種用於評估分類別器效能的工具，它總結了模型對某個資料集的正確和錯誤分類別結果。矩陣的行和列分別對應於真實類別和預測類別。對角線上的單元格表示正確分類別的數量，而非對角線上的單元格表示錯誤分類別的數量。

例如，假設有一個二元分類別問題（0/1），應用了一個分類別器到3000個觀察值中，得到以下的分類別矩陣：

Actual\Predicted	0	1
0	2689	25
1	85	201

在這個例子中，2689個觀察值被正確分類別為0，201個觀察值被正確分類別為1。然而，25個觀察值被錯誤分類別為1，而85個觀察值被錯誤分類別為0。

效能指標

根據分類別矩陣，可以計算出多個效能指標，包括：

準確率（Accuracy）：正確分類別的數量佔總資料集的比例。
精確率（Precision）：正確分類別為1的數量佔所有預測為1的數量的比例。
召回率（Recall）：正確分類別為1的數量佔所有真實為1的數量的比例。
F1-score：精確率和召回率的調和平均值。

這些指標可以幫助評估分類別器的效能，並找出需要改進的地方。

高階分離

在某些情況下，需要考慮高階分離，即使用多個預測變數來區分不同的類別。這可以透過視覺化工具，如圖表和圖片，來展示不同類別之間的分離情況。

例如，使用兩個預測變數（如信用卡消費和年收入）來區分兩個類別（接受者和非接受者）。如果這兩個變數不能很好地區分兩個類別，可能需要考慮其他預測變數或使用更複雜的模型。

瞭解分類別矩陣的重要性

在評估分類別模型的效能時，分類別矩陣是一個非常重要的工具。它能夠提供有關模型在不同類別上的正確率和錯誤率的資訊。例如，在一個二元分類別問題中，分類別矩陣的右上角儲存著被誤分為1的類別0成員的數量（在這個例子中，有25個這樣的觀察）。

分類別矩陣的估計

分類別矩陣給出了真實分類別和誤分類別率的估計。雖然這些估計可能不完全準確，但如果資料集足夠大且沒有類別非常稀少，則這些估計通常是可靠的。有時候，我們可以使用公共資料（如美國人口普查資料）來估計這些比例。但是在大多數商業環境中，我們通常不知道這些比例。

使用驗證資料

為了獲得未來分類別錯誤的誠實估計，我們使用從驗證資料計算出的分類別矩陣。具體來說，我們首先將資料分割為訓練集和驗證集。然後，我們使用訓練資料構建一個分類別器，並將其應用於驗證資料。這將給出驗證集觀察到的預測分類別（參見第2章的圖2.2）。接下來，我們總結這些分類別在一個分類別矩陣中。雖然我們可以總結訓練資料的結果在一個分類別矩陣中，但由於過度擬合的危險，這個矩陣對於獲得新資料的誤分類別率的誠實估計不是很有用。

檢測過度擬合

除了檢查驗證資料的分類別矩陣來評估新資料上的分類別效能外，我們還比較訓練資料和驗證資料的分類別矩陣，以檢測過度擬合：雖然我們期望在驗證資料上得到稍微劣勢的結果，但訓練和驗證效能之間的大差異可能表明過度擬合。

準確度衡量標準

從分類別矩陣中可以推匯出不同的準確度衡量標準。考慮一個具有兩個類別（C0和C1）的情況（例如，非買家/買家）。表5.1中的示範分類別矩陣使用ni,j來表示被分類別為Cj成員的Ci成員的數量。當然，如果i≠j，這些是誤分類別的計數。觀察到的總數為n = n0,0 + n0,1 + n1,0 + n1,1。

內容解密：

上述內容解釋瞭如何使用分類別矩陣來評估模型的效能，包括如何從驗證資料中獲得誠實的誤分類別率估計，以及如何檢測過度擬合。它還介紹瞭如何從分類別矩陣中推匯出不同的準確度衡量標準。

圖表翻譯：

  graph LR
    A[訓練資料] -->|構建分類別器|> B[分類別器]
    B -->|應用於驗證資料|> C[預測分類別]
    C -->|計算分類別矩陣|> D[評估模型效能]
    D -->|檢測過度擬合|> E[模型最佳化]

圖表翻譯：

此圖表示瞭如何使用訓練資料構建一個分類別器，然後將其應用於驗證資料以獲得預測分類別。接下來，計算分類別矩陣以評估模型的效能，並檢測過度擬合以最佳化模型。

評估預測模型的表現

評估預測模型的表現是一個非常重要的步驟，因為它能夠幫助我們瞭解模型的準確度和可靠性。在分類別問題中，評估模型的表現通常使用混淆矩陣（Confusion Matrix）來進行。

混淆矩陣

混淆矩陣是一個表格，它描述了預測結果和實際結果之間的關係。下面是混淆矩陣的基本結構：

預測類別	實際類別 0	實際類別 1
預測類別 0	TN (True Negative)	FP (False Positive)
預測類別 1	FN (False Negative)	TP (True Positive)

在這個表格中，每個單元格代表了預測結果和實際結果之間的不同組合：

TN（True Negative）：預測結果為 0，實際結果也為 0。
FP（False Positive）：預測結果為 1，實際結果為 0。
FN（False Negative）：預測結果為 0，實際結果為 1。
TP（True Positive）：預測結果為 1，實際結果也為 1。

評估指標

根據混淆矩陣，可以計算出多個評估指標，例如：

精確度（Accuracy）：正確預測的樣本數與總樣本數的比率。
準確度（Precision）：正確預測的正類別樣本數與所有預測為正類別的樣本數的比率。
召回率（Recall）：正確預測的正類別樣本數與所有實際為正類別的樣本數的比率。
F1 分數：精確度和召回率的調和平均值。

這些評估指標可以幫助我們全面地瞭解預測模型的表現，並找出需要改進的地方。

內容解密：

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import numpy as np

# 生成隨機資料
np.random.seed(0)
X = np.random.rand(100, 10)
y = np.random.randint(0, 2, 100)

# 切分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 訓練模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 預測結果
y_pred = model.predict(X_test)

# 混淆矩陣
print("混淆矩陣：")
print(np.array([[np.sum((y_test == 0) & (y_pred == 0)), np.sum((y_test == 0) & (y_pred == 1))],
               [np.sum((y_test == 1) & (y_pred == 0)), np.sum((y_test == 1) & (y_pred == 1))]]))

# 評估指標
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("精確度：", accuracy)
print("準確度：", precision)
print("召回率：", recall)
print("F1 分數：", f1)

圖表翻譯：

  graph LR
    A[實際類別] -->|0|> B[預測類別 0]
    A -->|1|> C[預測類別 1]
    B -->|TN|> D[正確預測]
    B -->|FP|> E[錯誤預測]
    C -->|FN|> E
    C -->|TP|> D

這個圖表展示了實際類別和預測類別之間的關係，以及不同預測結果的含義。

評估分類別模型的準確度

在評估分類別模型的準確度時，需要考慮多個指標，以全面瞭解模型的效能。其中一個重要的指標是誤分類別率，也就是整體錯誤率。這個指標可以透過以下公式計算：

誤分類別率 = (真實為 A 但被分類別為 B 的案例數 + 真實為 B 但被分類別為 A 的案例數) / 驗證資料集中的總案例數

使用這個公式，可以計算出模型的整體錯誤率。例如，在一個具體的案例中，如果有 85 個真實屬於類別 A 但被誤分為類別 B 的案例，和 25 個真實屬於類別 B 但被誤分為類別 A 的案例，總共有 3000 個案例，那麼誤分類別率就可以計算如下：

誤分類別率 = (85 + 25) / 3000 = 3.67%

這個結果意味著，模型大約有 3.67% 的案例被誤分類別。

準確度的重要性

準確度是評估分類別模型效能的另一個重要指標。它代表了模型正確分類別的案例比例。準確度可以透過以下公式計算：

準確度 = (正確分類別的案例數) / (驗證資料集中的總案例數)

提高準確度意味著模型能夠更好地分類別案例，減少誤分類別的可能性。

結合多個指標

在評估分類別模型時，應該結合多個指標，包括誤分類別率和準確度，以獲得對模型效能的全面理解。這有助於識別模型的優缺點，並對其進行改進。

  flowchart TD
    A[開始] --> B[計算誤分類別率]
    B --> C[計算準確度]
    C --> D[評估模型效能]
    D --> E[改進模型]

圖表翻譯：

上述流程圖描述了評估和改進分類別模型的步驟。首先，計算誤分類別率以瞭解模型的錯誤程度。接著，計算準確度以評估模型的正確性。然後，綜合評估模型的效能，最後根據評估結果對模型進行改進。

內容解密：

在評估分類別模型時，誤分類別率和準確度是兩個重要的指標。誤分類別率反映了模型的錯誤程度，而準確度則反映了模型的正確性。透過計算和分析這兩個指標，可以對模型的效能有更深入的瞭解，並找出需要改進的地方。這些指標的計算和分析對於構建高效能的分類別模型至關重要。

分類別演算法中的-propensity與截止值

在分類別演算法中，首先需要估計每個案例屬於各個類別的機率，也就是所謂的-propensity。這些機率可以用於預測類別成員資格或根據-propensity對記錄進行排名。讓我們先來探討-propensity在分類別中的第一個用途，即根據-propensity對案例進行分類別。

如果整體分類別準確率（涉及所有類別）是主要關注點，則案例可以被指派給具有最高機率的類別。在許多情況下，某個單一類別是特別感興趣的，也被稱為正類別（positive class）。因此，我們將關注正類別，並將屬於該類別的-propensity與由玄貓設定的截止值進行比較。這種方法可以適用於兩個或多個類別，儘管在這種情況下，合併類別以得到兩個類別（感興趣的類別和所有其他類別）可能更有意義。如果屬於感興趣類別的機率高於截止值，則案例被指派給該類別。

判斷分類別器效能

在某些情況下，使用兩個截止值並允許“無法判斷”選項對於分類別器是有用的。在兩個類別的情況下，這意味著對於一個案例，可以做出三種預測：案例屬於C1，案例屬於C0，或者無法做出預測，因為沒有足夠的資訊來自信地選擇C1或C0。無法被分類別器分類別的案例將受到玄貓的更嚴格審查。例如，在法律發現（法律程式中的相互強制檔案披露）中對檔案進行分類別。根據傳統的人工審查系統，需要合格的法律人員審查可能數萬份檔案以確定其與案件的相關性。使用分類別器和篩選結果，檔案可以分為明顯相關、明顯不相關以及需要人工審查的灰色區域檔案。這大大降低了發現的成本。

預設截止值

在兩個類別的分類別器中，預設截止值是0.5。因此，如果一個記錄被歸為C1類別的機率大於0.5，則該記錄被分為C1類別。任何估計機率小於0.5的記錄將被分為C0類別。然而，使用高於或低於0.5的截止值也是可能的。高於0.5的截止值將導致較少的記錄被分為C1，而低於0.5的截止值將導致更多的記錄被分為C1。通常，誤分類別率會在任一情況下上升。

實際資料分析

考慮表5.2中的資料，顯示24個記錄的實際類別，按玄貓估計的“所有者”propensity排序。如果採用標準的0.5作為截止值，則誤分類別率為3/24，而如果採用0.25作為截止值，則會將更多記錄分為C1類別。

圖表翻譯：

  flowchart TD
    A[開始] --> B[估計propensity]
    B --> C[比較截止值]
    C --> D[分配類別]
    D --> E[評估效能]

內容解密：

上述流程圖描述了使用propensity進行分類別的基本步驟。首先，估計每個案例屬於各個類別的機率（propensity）。然後，比較這些機率與設定的截止值，以決定每個案例的類別。最後，評估分類別器的效能，以確保其滿足要求。

從商業價值視角來看，精準預測客戶行為對企業決策至關重要。本文深入探討了Lift Chart、分類別矩陣、以及propensity等技術在提升預測模型能力方面的應用。分析段落中，我們比較了不同評估指標如準確度、精確率、召回率和F1分數的優劣，並闡述瞭如何利用驗證資料集避免過擬合，確保模型在實際應用中的可靠性。此外，文章也分析了設定截止值的重要性，以及如何根據業務需求調整截止值以達到最佳的分類別效果，例如在法律案例中使用雙截止值以區分明確相關、明確不相關和需要人工審查的檔案，有效降低成本。展望未來，隨著機器學習技術的發展，預測模型的準確性和效率將持續提升，玄貓預見更多客製化的預測方案將賦能企業精準行銷和決策，創造更大的商業價值。對於追求投資報酬率最大化的企業而言，深入理解並應用這些技術將成為致勝關鍵。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。