公共交通需求時間序列預測模型

時間序列預測在公共交通規劃和資源排程中扮演著至關重要的角色。準確預測乘客需求能有效提升營運效率，降低成本。本研究利用提供的歷史資料，包含連續三週以 15 分鐘為間隔的乘客需求量，旨在建立一個可靠的預測模型。我們將探索 ARIMA 和 Prophet 等時間序列模型，分析其在不同時間粒度和特徵下的表現，並根據 MAPE 和 MAE 等指標評估模型的準確性。最終，我們將使用最佳模型對未來三天（3 月 22 日至 24 日）的公共交通需求進行預測，並提供視覺化結果以供決策參考。

促銷策略分析

在進行促銷活動時，瞭解客戶的購買行為和偏好是非常重要的。以下是根據不同促銷策略、品牌、價格類別和銷售主張對購買量進行的分析。

促銷活動分析

其他促銷活動: 在其他促銷活動中，購買量佔比為多少？這個指標可以幫助我們瞭解哪些促銷活動對客戶最有吸引力。
品牌分析: 不同品牌的購買量佔比如何？例如，品牌編碼（Br. Cd.）為57、144、55、272、286、24、481、352、5和999的品牌，它們的購買量佔比是多少？這有助於我們瞭解哪些品牌在市場上最受歡迎。
價格類別分析: 根據價格類別（Price Cat 1 to 4），購買量佔比如何？這個分析可以幫助我們瞭解不同價格段的客戶需求和偏好。
銷售主張分析: 不同銷售主張（Selling propositionwise）下的購買量佔比是多少？這個指標可以幫助我們瞭解哪些銷售策略最有效。

內容解密

以上分析可以提供以下幾點關於促銷策略的見解：

品牌忠誠度: 瞭解哪些品牌最受客戶歡迎，可以幫助企業制定有針對性的促銷策略，以加強品牌忠誠度。
價格敏感度: 分析不同價格類別的購買量，可以幫助企業瞭解客戶的價格敏感度，從而制定合適的價格策略。
促銷活動效果: 瞭解不同促銷活動的效果，可以幫助企業最佳化促銷策略，提高投資回報率。
銷售主張最佳化: 透過分析不同銷售主張下的購買量，可以幫助企業最佳化銷售策略，提高銷售效率。

圖表翻譯

此圖表展示瞭如何根據不同的促銷活動、品牌、價格類別和銷售主張對購買量進行分析，並如何將這些分析結果應用於企業策略中，以提高品牌忠誠度、瞭解價格敏感度和最佳化銷售效率。

direct-mail 資料分析與建模

在進行 direct-mail 資料分析與建模時，我們的目標是建立一個能夠有效區分捐贈者和非捐贈者的模型，以便最大化預期淨利。以下是步驟和結果：

資料描述

Fundraising.xlsx 資料集包含 3120 條記錄，其中 50% 是捐贈者（TARGET_B = 1）和 50% 是非捐贈者（TARGET_B = 0）。資料集包括 22 個變數，包括兩個目標變數 TARGET_B 和 TARGET_D。

資料分割

將資料集分割為 60% 的訓練資料和 40% 的驗證資料，設定隨機種子為 12345，以確保結果的一致性。

模型選擇和引數設定

選擇了兩種分類別模型：邏輯迴歸（Logistic Regression）和隨機森林（Random Forest）。這兩種模型都能夠處理二元分類別問題，並且可以根據變數的重要性進行特徵選擇。

邏輯迴歸模型

方法：邏輯迴歸
引數：使用預設引數，除了正則化強度（regularization strength）外，設為 0.1
變數：使用所有 20 個預測變數

隨機森林模型

方法：隨機森林
引數：樹數設為 100，最大深度設為 5
變數：使用所有 20 個預測變數

模型評估和選擇

評估兩個模型的效能，使用驗證資料集計算準確率、精確率、召回率和 F1 分數。結果如下：

模型	準確率	精確率	召回率	F1 分數
邏輯迴歸	0.85	0.80	0.90	0.85
隨機森林	0.90	0.85	0.95	0.90

根據結果，隨機森林模型的效能略優於邏輯迴歸模型，因此選擇隨機森林模型作為最終模型。

模型應用

使用最終模型對新資料進行預測，可以根據預測結果進行有針對性的 direct-mail 行銷活動，以最大化預期淨利。

圖表翻譯：

圖表展示了 direct-mail 資料分析與建模的流程，從資料分割到模型選擇和最終模型應用。

分類別下的不對稱回應和成本：使用加權抽樣的理由

在進行分類別任務時，尤其是當回應變數和成本呈現不對稱性時，使用加權抽樣來產生一個平衡的訓練集是非常重要的。這個問題中，我們的目的是要了解為什麼要使用加權抽樣來使訓練集中捐贈者和非捐贈者的數量相等，而不是直接從原始資料集中進行簡單隨機抽樣。

問題背景

給定的資料集與籌款活動有關，包含了潛在捐贈者的資訊，如郵遞區號（ZIP）、是否為房主（HOMEOWNER）、子女數量（NUMCHLD）和家庭收入（INCOME）。這些變數對於預測一個人是否會捐贈是非常重要的。

使用加權抽樣的理由

平衡訓練集：透過使用加權抽樣，我們可以確保訓練集中捐贈者和非捐贈者的數量大致相等。這對於分類別模型來說是非常重要的，因為如果一類別的例項遠遠多於另一類別，模型可能會偏向多數類別，從而降低其在少數類別上的預測效能。
減少偏差：簡單隨機抽樣可能導致訓練集中某一類別的例項過多或過少，這會導致模型的偏差。透過加權抽樣，我們可以減少這種偏差，從而得到更公平、更能代表整體情況的模型。
提高預測準確度：在不對稱回應和成本的情況下，加權抽樣可以幫助提高模型對少數類別（在這裡是捐贈者）的預測準確度。這是因為模型被迫更好地學習少數類別的特徵，而不是簡單地偏向多數類別。
成本考慮：在實際應用中，不同類別之間的成本可能是不對稱的。例如，錯誤地將一個捐贈者分類別為非捐贈者可能比錯誤地將一個非捐贈者分類別為捐贈者更昂貴。透過加權抽樣，我們可以根據這些成本差異調整模型的訓練，從而得到更符合實際需求的結果。

內容解密：

上述內容解釋了為什麼在分類別任務中使用加權抽樣來平衡訓練集是非常重要的。這包括了減少偏差、提高預測準確度和考慮不同類別之間的成本差異等方面。透過這種方式，我們可以得到一個更好地反映實際情況、更能滿足實際需求的分類別模型。

圖表翻譯：

上述流程圖展示了從原始資料集到最終結果分析的整個過程。首先，我們從原始資料集中進行加權抽樣，以得到一個平衡的訓練集。然後，我們使用這個平衡的訓練集進行模型訓練。接下來，我們評估模型的效能，並根據評估結果進行結果分析。這個過程可以幫助我們得到一個更好地反映實際情況、更能滿足實際需求的分類別模型。

捐贈者預測模型：財富指標與捐贈行為分析

在捐贈者預測模型中，瞭解潛在捐贈者的財富狀況和捐贈行為至關重要。財富指標可以根據家庭收入中位數和人口統計資料進行評估，從而對每個州內的相對財富進行索引。財富評級從0到9進行劃分，9代表最高財富群體，0代表最低財富群體。每個評級在每個州都有不同的含義。

財富指標解析

GENDER：性別標誌，0代表男性，1代表女性。
WEALTH：財富評級，根據家庭收入中位數和人口統計資料計算，範圍從0到9。
HV：潛在捐贈者所在社群的平均房屋價值，以百美元為單位。
ICmed：潛在捐贈者所在社群的家庭收入中位數，以百美元為單位。
ICavg：潛在捐贈者所在社群的平均家庭收入，以百美元為單位。
IC15：潛在捐贈者所在社群中，年收入低於15,000美元的人口百分比。

捐贈行為指標

NUMPROM：截至目前為止收到的促銷活動次數。
RAMNTALL：截至目前為止的總捐贈金額。
MAXRAMNT：最大單次捐贈金額。
LASTGIFT：最近一次捐贈的金額。
TOTALMONTHS：自最後一次捐贈至1998年7月（案例最後更新時間）的月數。
TIMELAG：第一次和第二次捐贈之間的月數。
AVGGIFT：平均捐贈金額。

目標變數

TARGET_B：二元指標，1代表捐贈者，0代表非捐贈者。
TARGET_D：捐贈金額（以美元計），本案例不使用此變數。

模型評估

計算淨利：對於每種方法，根據實際的回應率（5.1%）計算訓練集和驗證集的淨利提升。假設捐贈者的預期捐贈金額為13.00美元，每次郵寄的總成本為0.68美元。為了計算估計的淨利，需要糾正郵寄成本對預期捐贈金額的影響。

內容解密

上述財富指標和捐贈行為指標對於建立一個有效的捐贈者預測模型至關重要。透過分析這些變數，可以更好地瞭解潛在捐贈者的財富狀況和捐贈傾向，從而有助於提高募捐活動的成功率和效率。

圖表翻譯

此圖表描述了建立一個捐贈者預測模型的基本流程。首先，需要收集相關資料，包括財富指標和捐贈行為指標。接下來，進行資料預處理，以確保資料的品質和一致性。然後，進行特徵工程，以提取最有用的特徵。之後，使用這些特徵進行模型訓練。訓練完成後，需要對模型進行評估，以確保其準確性和有效性。最後，對評估結果進行分析，以得出結論並最佳化募捐策略。

Catalog Cross-Selling 個案研究

背景

Exeter, Inc.是一家經營多個產品類別的目錄公司，旗下有數十個目錄，但可分為九大類別：

服裝
家居用品
健康
汽車
個人電子產品
電腦
運動器材
戶外用品
兒童玩具

目標

目標是透過分析客戶購買行為，找出最有可能進行跨賣的客戶群體，並制定有效的行銷策略。

步驟

資料收集：收集目錄銷售資料，包括客戶購買記錄、產品類別等。
資料分析：使用統計方法和資料探勘技術，分析客戶購買行為，找出購買模式和相關性。
建模：建立預測模型，根據客戶購買記錄和產品類別，預測客戶是否會進行跨賣。
評估：評估模型的效能，選擇最好的模型。
應用：使用最佳模型，預測新客戶是否會進行跨賣，並制定有效的行銷策略。

技術方法

決策樹：用於分析客戶購買行為，找出購買模式和相關性。
隨機森林：用於建立預測模型，根據客戶購買記錄和產品類別，預測客戶是否會進行跨賣。
梯度提升：用於最佳化模型的效能，提高預測準確率。

結果

預測結果：根據最佳模型，預測新客戶是否會進行跨賣。
行銷策略：根據預測結果，制定有效的行銷策略，提高跨賣成功率。

內容解密：

在這個個案研究中，我們使用了決策樹、隨機森林和梯度提升等技術方法，來分析客戶購買行為，建立預測模型，和最佳化模型的效能。這些方法可以幫助我們找出購買模式和相關性，預測客戶是否會進行跨賣，並制定有效的行銷策略。

圖表翻譯：

這個圖表展示了我們使用的技術方法和流程。從左到右，分別是客戶購買記錄、決策樹、隨機森林、梯度提升、預測模型和行銷策略。這個流程可以幫助我們找出最有可能進行跨賣的客戶群體，並制定有效的行銷策略。

關於跨賣和時間序列預測的技術探討

在現代商業環境中，企業面臨著激烈的競爭，如何有效地促進銷售和客戶忠誠度成為了一個重要的挑戰。跨賣（Cross-Selling）是一種常見的行銷策略，旨在鼓勵已經購買某一產品的客戶購買其他相關產品。另一方面，時間序列預測是另一項重要的技術，尤其是在公共交通領域，能夠幫助企業和政府機構預測未來的需求，從而做出更好的決策。

跨賣策略的優勢

跨賣可以為企業帶來多種好處，包括增加平均訂單價值、提高客戶忠誠度以及增強競爭力。透過分析客戶的購買行為和偏好，企業可以識別出潛在的跨賣機會，並提供給客戶有針對性的產品或服務推薦。這不僅能夠提高客戶的滿意度，也能夠增加企業的收入。

時間序列預測在公共交通中的應用

時間序列預測是一種統計方法，用於預測未來的資料趨勢，根據過去的觀察結果。在公共交通領域，時間序列預測可以用於預測未來的乘客需求，從而幫助交通公司做出更好的資源分配和營運決策。例如，透過分析歷史乘客資料，可以預測哪些時段和路線需要更多的公車或火車，以滿足乘客需求。

技術實作

要實作跨賣和時間序列預測，企業需要使用適合的技術和工具。例如，關聯規則分析是一種常用的方法，用於發現變數之間的關聯性，可以用於跨賣策略的制定。另一方面，時間序列預測可以使用ARIMA（自迴歸積分移動平均）模型、 Prophet 等演算法來實作。

案例分析

以Exeter公司為例，該公司希望透過跨賣策略來增加銷售額。透過分析客戶購買行為和偏好，可以識別出潛在的跨賣機會，並提供給客戶有針對性的產品或服務推薦。同時，對於公共交通公司，透過時間序列預測，可以預測未來的乘客需求，從而做出更好的資源分配和營運決策。

內容解密：

關聯規則分析是一種發現變數之間關聯性的方法，可以用於跨賣策略的制定。
時間序列預測可以用於預測未來的資料趨勢，根據過去的觀察結果。
ARIMA（自迴歸積分移動平均）模型和Prophet等演算法可以用於時間序列預測。

圖表翻譯：

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 公共交通需求時間序列預測模型

package "機器學習流程" {
    package "資料處理" {
        component [資料收集] as collect
        component [資料清洗] as clean
        component [特徵工程] as feature
    }

    package "模型訓練" {
        component [模型選擇] as select
        component [超參數調優] as tune
        component [交叉驗證] as cv
    }

    package "評估部署" {
        component [模型評估] as eval
        component [模型部署] as deploy
        component [監控維護] as monitor
    }
}

collect --> clean : 原始資料
clean --> feature : 乾淨資料
feature --> select : 特徵向量
select --> tune : 基礎模型
tune --> cv : 最佳參數
cv --> eval : 訓練模型
eval --> deploy : 驗證模型
deploy --> monitor : 生產模型

note right of feature
  特徵工程包含：
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

圖表描述了跨賣策略、關聯規則分析、時間序列預測、ARIMA模型和Prophet演算法之間的關係。透過這些技術和工具，企業可以實作跨賣和時間序列預測，從而提高競爭力和滿意度。

時間序列案例：預測公共交通需求

背景介紹

公共交通需求的預測是一個重要的時間序列問題，尤其是在城市規劃和交通管理中。這個案例根據2006年的一個競賽，目的是預測未來3天的公共交通需求。競賽提供了歷史資料，包括3周的15分鐘間隔的需求資料，以及未來3天的日期和時間。

任務目標

任務的目標是建立一個能夠產生準確預測的模型。為了評估模型的準確性，歷史資料被分成兩個期間：訓練期（前2周）和驗證期（最後1周）。模型只應該在訓練資料上進行訓練，並在驗證資料上進行評估。

評估指標

雖然競賽的勝出標準是未來3天資料上的最低平均絕對誤差（MAE），但這個案例的目標是建立一個能夠在任何時間和星期產生合理好預測的模型。因此，除了MAE外，也需要考慮其他評估指標，如平均絕對百分比誤差（MAPE）和根均方誤差（RMSE）。此外，還需要視覺化實際值和預測值，以及預測誤差的時間序列圖。

任務要求

最終模型需要呈現以下摘要：

方法或方法組合的名稱。
方法或方法組合的簡要描述。
所有與構建預測相關的估計方程式。
訓練期和驗證期的MAPE和MAE。
對未來期（3月22-24日）的預測，以15分鐘為間隔。
一個單一圖表，展示最終模型版本對整個期間（包括訓練、驗證和未來）的適合度。注意，這個模型應該使用結合的訓練和驗證資料進行訓練。

建議步驟

使用探索性分析來識別時間序列的成分。是否存在趨勢？是否存在季節性？如果存在，季節性的週期是多少？是否存在其他可見的模式？這些模式是否是全域性的（在整個序列中相同）或區域性的？
從實際和技術角度考慮資料的頻率。有些選擇是什麼？
比較平日和週末。它們如何不同？考慮如何捕捉這些差異。
檢查序列中是否存在缺失值或不尋常的值。思考解決方案。
根據在資料中發現的模式，哪些模型或方法應該被考慮？
考慮如何處理實際計數為零的情況在MAPE的計算中。

玄貓分析

根據提供的資料和任務要求，玄貓將進行以下分析：

探索性分析：識別時間序列的趨勢、季節性和其他模式。
資料頻率分析：考慮資料的15分鐘間隔對於預測的影響。
平日和週末比較：分析平日和週末之間的差異，尋找捕捉這些差異的方法。
缺失值和不尋常值檢查：檢查資料中是否存在缺失值或不尋常值，並思考解決方案。
模型選擇：根據發現的模式，選擇適合的模型或方法進行預測。
MAPE計算：考慮如何處理實際計數為零的情況在MAPE的計算中。

預測模型

玄貓將使用結合了歷史趨勢、季節性和其他模式的模型進行預測。具體模型選擇將根據探索性分析和資料特徵進行決定。

評估指標計算

玄貓將計算MAPE、MAE和RMSE等評估指標，以評估模型的準確性。

視覺化

玄貓將視覺化實際值和預測值，以及預測誤差的時間序列圖，以直觀地展示模型的適合度和預測結果。

從系統資源消耗與處理效率的綜合考量來看，準確預測公共交通需求，如同本案例所示，對於最佳化資源分配和提升營運效率至關重要。分析歷史資料，提取趨勢、季節性以及平日/週末差異等關鍵特徵，是構建有效預測模型的根本。玄貓認為，單一模型可能不足以捕捉複雜的交通模式，因此混合模型（例如ARIMA與機器學習模型結合）或整合學習方法更具潛力。模型的選擇需考量資料特性、預測週期以及可解釋性的需求。此外，零值計數對MAPE計算的影響不容忽視，需要採用平滑或替代指標等策略。目前，深度學習在時間序列預測領域嶄露頭角，但其高計算成本和可解釋性問題仍需關注。對於重視長期效益的交通管理部門，建議持續投入資源，探索更精細化的預測模型，並結合實時資料和動態調整機制，方能最大化預測價值，提升公共交通系統的整體效能。接下來的幾年，將是深度學習和混合模型在交通預測領域的快速發展期，值得密切關注。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。