機器學習技術已成為商業分析領域不可或缺的工具,本文旨在提供一個全面性的學習框架,涵蓋從資料預處理到模型佈署的完整流程。不同於傳統統計方法,機器學習模型能有效處理高維度、非線性資料,並從中挖掘潛在價值,進而提升商業決策的準確性和效率。本文將深入探討各種機器學習演算法的原理和應用場景,並結合實際案例,幫助讀者建立扎實的理論基礎和實務經驗。

致謝

在《機器學習商業分析》(Machine Learning for Business Analytics)一書的創作過程中,我們感謝許多人對本文從2006年的《商業智慧資料探勘》(Data Mining for Business Intelligence)到現在的版本提供了幫助,包括使用XLMiner(現為Analytic Solver)、Analytic Solver Data Mining、R、Python、SAS JMP和RapidMiner等工具的版本,以及中文和韓文譯本。

首先,我們要感謝Anthony Babinec,他對早期版本的書籍進行了專業的校正。Dan Toy和John Elder IV在專案初期就表達了熱情,並對初稿提供了詳細和有用的評論。來自印度商學院和後來明尼蘇達大學的Ravi Bapna使用早期版本的書籍進行資料探勘課程,並從一開始就提供了無價的評論和建議。

許多教師、助教和使用早期版本文籍的學生都透過直接和間接的方式提供了寶貴的反饋,包括富有成效的討論、學習旅程和有趣的資料探勘專案,這些都幫助塑造和改進了這本文。這其中包括來自馬裡蘭大學、麻省理工學院、印度商學院等許多大學和教學專案的MBA學生。

我們也感謝許多同事和家人成員,他們在這個專案中提供了持續的反饋和幫助。Vijay Kamble和Travis Greene分別在伊利諾伊大學芝加哥分校和國立陽明交通大學提供了有關強化學習章節的寶貴幫助。Boaz Shmueli和Raquelle Azran給出了詳細的編輯評論和建議;Bruce McCullough和Adam Hughes也對第一版提出了寶貴意見。Noa Shmueli仔細校對了第三版。Ran Shenberger提供了設計提示。Ken Strasma,HaystaqDNA公司的創始人和2004年Kerry競選團隊和2008年Obama競選團隊的目標總監,提供了提升模型章節所需的場景和資料。

此外,我們感謝Jen Golbeck,馬裡蘭大學資訊學院教授和《分析社交網》(Analyzing the Social Web)的作者,她的書籍啟發了我們在社交網路分析章節中的內容呈現。Randall Pruim對視覺化章節做出了大量貢獻。Marietta Tretter在德克薩斯A&M大學分享了她對時間序列章節的評論和想法;Stephen Few和Ben Shneiderman則提供了視覺化章節和整體設計提示的反饋。

最後,我們感謝所有在不同場合提供過評論和建議的人,包括Susan Palocsay、Mia Stephens、Margret Bjarnadottir等。同時,也感謝馬裡蘭大學人機互動實驗室的Catherine Plaisant,她在本文創作過程中提供了重要幫助。

我們也要感謝麻省理工學院斯隆管理學院的同事,在本文形成階段給予我們支援,包括Dimitris Bertsimas、James Orlin、Robert Freund、Roy Welsch、Gordon Kaufmann和Gabriel Bitran。作為麻省理工學院資料探勘課程的助教,Adam Mersereau對本文初稿進行了詳細評論。

圖表翻譯:

  graph TD
    A[開始] --> B[致謝]
    B --> C[感謝各位貢獻者]
    C --> D[感謝同事和家人]
    D --> E[結束]

內容解密:

以上致謝內容強調了《機器學習商業分析》一書創作過程中所涉及的眾多貢獻者,包括同事、學生、家人成員等。他們透過提供評論、建議、校正等方式幫助改進了本文的內容和品質。這些貢獻不僅體現在書籍的各個章節中,也反映在書籍對於資料探勘和機器學習技術的深入探討中。

商業分析導論

商業分析(Business Analytics, BA)是一種結合資料與決策的實踐和藝術。它涉及使用資料分析方法來支援商業決策,涵蓋從基本的計數、規則檢查和基礎算術到複雜的統計模型和機器學習演算法等多種技術。

什麼是商業分析?

商業分析的範圍很廣,包括了從描述性分析到預測性分析等多個層面。描述性分析關注於瞭解過去發生了什麼,而預測性分析則著眼於預測未來會發生什麼。商業智慧(Business Intelligence, BI)是商業分析的一部分,主要涉及資料視覺化和報告,以幫助理解「發生了什麼」和「正在發生什麼」。

誰使用預測分析?

預測分析的應用非常廣泛,各個行業都在使用預測模型來改善業務。例如,信用評分是一種長期以來被使用的預測模型技術,用於評估個人的信用度。另一方面,像Target這樣的公司使用預測模型來識別潛在的客戶群體,例如懷孕女性,以便在早期階段向他們推播銷售促銷。

什麼是機器學習?

機器學習(Machine Learning)是商業分析的一部分,涉及使用統計和機器學習方法來分析資料、量化和解釋變數之間的關係,並預測新的記錄。機器學習演算法可以處理大量資料,並從中提取有價值的資訊。它們被廣泛應用於各個領域,包括信用評分、客戶分段和個人化推薦等。

商業分析工具箱

商業分析工具箱包括了多種資料分析方法,從基本的計數和規則檢查到複雜的統計模型和機器學習演算法。它還包括了資料視覺化和報告工具,用於幫助理解和探索資料。有效的儀錶板可以將複雜的資料以簡單直觀的方式呈現給管理者,幫助他們快速發現問題和機會。

機器學習、AI和相關術語

機器學習是人工智慧(Artificial Intelligence, AI)的一部分,涉及使用演算法從資料中學習並改進效能。它被廣泛應用於各個領域,包括預測、分類別和推薦等。然而,成功應用機器學習需要對業務背景和機器學習方法都有深入的理解。

內容解密:

上述內容介紹了商業分析的基本概念,包括其定義、範圍和應用。它還涉及了預測分析、機器學習和商業智慧等相關術語的解釋。透過瞭解這些概念,可以更好地掌握商業分析的基礎知識,並應用於實際業務中。

圖表翻譯:

  graph LR
    A[商業分析] --> B[描述性分析]
    A --> C[預測性分析]
    B --> D[資料視覺化]
    C --> E[機器學習]
    E --> F[預測]
    E --> G[分類別]
    E --> H[推薦]

上述圖表展示了商業分析的範圍和內容,包括描述性分析、預測性分析、資料視覺化、機器學習等。透過這個圖表,可以更清晰地瞭解商業分析的各個層面和組成部分。

1.3 機器學習、人工智慧和相關術語

隨著分析領域的快速成長,無論是在應用廣度還是組織數量上,都出現了許多術語的重疊和定義不一致。隨著時間的推移,這些術語也在不斷演變。

1.3.1 分析領域的演變

早期的「資料探勘」(Data Mining)一詞對不同人有不同的含義。對於大眾來說,它可能意味著在大量資料中搜尋有趣的東西。然而,在分析技術領域,資料探勘已經被更為精確的術語所取代,如預測分析(Predictive Analytics)、預測模型(Predictive Modeling),以及最近興起的機器學習(Machine Learning)和人工智慧(Artificial Intelligence,AI)。

1.3.2 人工智慧(AI)和機器學習(ML)

許多從事IT和電腦科學領域的實踐者使用AI來指代所有在本文中討論的方法。AI最初指的是機器模擬人類行為的能力,早期主要停留在科幻和電腦科學家的未實作願景中。近年來,AI的概念已經擴充套件到包括本文中討論的統計和機器學習方法,作為實作這一宏偉願景的主要驅動力。有時,AI這個術語被寬鬆地用來與機器學習互換使用。

1.4 大資料

機器學習和大資料密切相關。大資料是一個相對的術語,取決於當前的方法和裝置。大資料帶來的挑戰通常被描述為四個V:體積(Volume)、速度(Velocity)、多樣性(Variety)和真實性(Veracity)。體積指的是資料量,速度指的是資料生成和變化的速率,多樣性指的是不同型別的資料,真實性則指的是資料的可靠性和品質。

1.5 資料科學

大資料的普遍性、規模、價值和重要性催生了一個新的職業:資料科學家。資料科學是一種結合了統計學、機器學習、數學、程式設計、商業和IT技能的領域。這個術語比其他概念更為廣泛,它是一個罕見的個體能夠在所有這些領域中都具有深厚的技能。

1.6 為什麼有那麼多不同的方法?

如同在機器學習書籍或資源中看到的那樣,有很多不同的方法用於預測和分類別。你可能會問自己為什麼會有這麼多方法,並且是否有一些方法比其他方法更好。答案是,每種方法都有其優點和缺點。一個方法的有用性取決於諸如資料集大小、資料中的模式型別、資料是否滿足方法的基本假設、資料中的噪音水平以及分析的具體目標等因素。

內容解密:

上述內容簡要介紹了機器學習、人工智慧、大資料和資料科學等概念,並強調了在這些領域中選擇合適方法的重要性。同時,也提到了大資料帶來的挑戰和機遇,以及資料科學家的角色。

  graph LR
    A[機器學習] -->|包含|> B[統計學]
    A -->|包含|> C[人工智慧]
    D[大資料] -->|推動|> E[機器學習]
    E -->|應用於|> F[資料科學]

圖表翻譯:

此Mermaid圖表展示了機器學習、統計學、人工智慧、大資料和資料科學之間的關係。機器學習包含統計學和人工智慧,大資料推動了機器學習的發展,而機器學習又被應用於資料科學中。這個圖表簡潔地呈現了這些概念之間的邏輯關係。

房地產市場分析

在房地產市場中,瞭解不同變數之間的關係對於投資和發展決策至關重要。以下將探討房屋大小、收入水平、所有權狀態等因素對房地產市場的影響。

房屋大小與收入關係

房屋大小通常以平方英尺(sqft)為單位衡量,而收入則以千美元($000s)表示。一般而言,房屋大小與收入水平呈正相關關係,即收入越高的人們往往能夠購買或租賃更大的房屋。這是因為收入水平越高,人們越有能力承擔更高的房價或租金。

所有權狀態分析

所有權狀態可以分為業主(owner)和非業主(nonowner)兩類別。業主是指那些擁有自己居住的房屋的人們,而非業主則包括租戶和其他非房屋所有者。所有權狀態會影響人們的消費行為和投資決策,例如業主可能會投資更多於房屋裝修和升級,以提高房屋的價值和舒適度。

資料分析

假設我們有一組資料,包含房屋大小(以千平方英尺為單位)、收入水平(以千美元為單位)和所有權狀態。以下是一個簡單的資料示例:

房屋大小(000s sqft)收入水平($000s)所有權狀態
1320業主
1540非業主
1760業主
1980非業主
21100業主
23120非業主
25100業主

透過分析這些資料,我們可以觀察到房屋大小和收入水平之間的關係,以及所有權狀態如何影響這種關係。例如,收入水平較高的人們往往居住在較大的房屋中,而業主可能會選擇更大的房屋以滿足他們的需求和偏好。

內容解密:

以上分析根據假設資料,實際資料可能會因地區、文化和經濟條件等因素而有所不同。因此,在進行房地產市場分析時,需要使用真實和可靠的資料,並考慮到多種因素的影響,以獲得更準確的結論。

  graph LR
    A[房屋大小] --> B[收入水平]
    B --> C[所有權狀態]
    C --> D[消費行為]
    D --> E[投資決策]

圖表翻譯:

此圖表示房屋大小、收入水平、所有權狀態、消費行為和投資決策之間的關係。房屋大小會影響收入水平,而收入水平則會影響所有權狀態。所有權狀態又會影響消費行為和投資決策。這個圖表幫助我們瞭解房地產市場中不同變數之間的複雜關係。

房地產市場分析

近年來,房地產市場呈現出多樣化的趨勢,尤其是在不同收入層次和產權型別之間。為了更好地瞭解這些變化,讓我們深入探討一些相關資料。

資料概覽

以下是部分與房地產市場相關的資料:

  • 13
  • 15
  • 17
  • 19
  • 21
  • 23
  • 25

以及:

  • 20
  • 40
  • 60
  • 80
  • 100
  • 120

這些資料可能與房屋的大小(以千平方英尺計)、收入(以千美元計)或其他相關因素有關。

房屋規模與收入關係

在探討房地產市場時,房屋的大小和所屬者的收入水平是重要的考量因素。以下是一些相關的資料:

Lot Size (000s sqft)Income ($000s)Owner/Nonowner
資料1資料2資料3

這個表格可以幫助我們瞭解不同房屋規模和收入水平之間的關係,以及所有權(owner)和非所有權(nonowner)之間的差異。

圖表分析

此圖示

  graph LR
    A[房屋大小] --> B[收入水平]
    B --> C[所有權型別]
    C --> D[市場趨勢]

這個圖表展示了房屋大小、收入水平、所有權型別和市場趨勢之間的關係。透過這個視覺化工具,我們可以更清晰地看到這些因素如何互相影響。

圖表翻譯:

上述圖表描述了一個房地產市場分析的基本框架。首先,房屋的大小會影響其價格和所需的收入水平。接著,收入水平又會影響買房者是否能夠擁有這棟房屋(所有權)或僅能租住(非所有權)。最後,所有權型別會對市場趨勢產生影響,因為買房者和租戶的需求和偏好可能不同。

1.7 名詞解釋與標記

由於資料科學的混合性質,其從業人員經常使用多個術語來指代相同的事物。例如,在機器學習和人工智慧領域,預測的變數被稱為輸出變數或目標變數。類別目標變數通常被稱為標籤。對於統計學家或社會科學家,預測的變數被稱為因變數或反應變數。以下是使用的術語摘要:

名詞解釋表

  • 演算法:實作特定機器學習技術的特定程式,例如分類別樹、判別分析等。
  • 屬性:見 預測變數
  • 案例:見 觀察值
  • 信賴度:關聯規則中的一種績效衡量指標,例如「如果 A 和 B 被購買,則 C 也會被購買」的信賴度是指 C 被購買的條件機率,假設 A 和 B 被購買。信賴度也具有更廣泛的含義,在統計學中關乎估計的誤差程度。
  • 因變數:見 反應變數
  • 估計:見 預測
  • 特徵:見 預測變數
  • 保留資料(或保留集):不用於訓練模型的資料樣本,而是用於評估該模型的績效。這本文使用「測試集」一詞代替「保留集」。
  • 推論:在統計學中,指的是在根據樣本進行估計或得出結論時考慮到偶然變異的過程;在機器學習中,通常指的是使用模型對新資料進行預測的過程(見 評分)。
  • 輸入變數:見 預測變數
  • 標籤:在監督式學習中,被預測的類別變數。
  • 模型:將演算法應用於資料集,並包含其設定(許多演算法具有可由使用者調整的引數)。
  • 觀察值:分析的單位,測量值在此單位上進行(例如客戶、交易等);也稱為例項、樣本、範例、案例、記錄、模式或行。在試算表中,每行通常代表一個記錄,每列代表一個變數。注意,這裡使用「樣本」的含義與統計學中通常的含義不同,統計學中指的是觀察值的集合。
  • 結果變數:見 反應變數
  • 輸出變數:見 反應變數
  • P(A|B):事件 A 在事件 B 發生後的條件機率。讀作「假設 B 已經發生,A 發生的機率」。
  • profile:對於觀察值的一組測量值(例如,一個人的身高、體重和年齡)。
  • 預測:預測連續輸出變數的數值;也稱為估計。

1.8 本文導航

本文涵蓋了許多廣泛使用的預測和分類別方法,以及其他機器學習工具。圖 1.2 從過程角度闡述了機器學習,並指出本文中的主題在其中的位置。章節號碼在每個主題旁邊顯示。表 1.1 提供了一個不同的視角:它根據資料的型別和結構組織了監督式和非監督式機器學習程式。

主要術語

  • 預測變數:通常用 X 表示,作為預測模型的輸入變數;也稱為特徵、輸入變數、自變數,或從資料函式庫角度來看,是一個欄位。
  • 記錄:見 觀察值
  • 反應變數:通常用 Y 表示,作為監督式學習中被預測的變數;也稱為因變數、輸出變數、目標變數或結果變數。
  • 樣本:在統計學界,「樣本」指的是觀察值的集合;在機器學習界,「樣本」指的是單個觀察值。
  • 評分:預測值或類別。對新資料進行評分意味著使用訓練資料開發的模型來預測新資料中的輸出值。
  • 成功類別:在二元結果中,感興趣的類別(例如,在購買/未購買結果中,購買者)。
  • 監督式學習:提供演算法(邏輯迴歸、分類別樹等)已知輸出變數的記錄,並讓演算法「學習」如何為新記錄預測這個值,其中輸出值是未知的。
  • 目標:見 反應變數
  • 測試資料(或測試集):用於模型建構和選擇過程結束時評估最終模型在新資料上的績效的資料部分。也稱為「保留資料」。
  • 訓練資料(或訓練集):用於訓練模型的資料部分。

非監督式學習

嘗試在資料中發現除了預測輸出值之外的模式。

驗證資料(或驗證集)

用於評估模型適合度、調整模型並從嘗試過的模型中選擇最佳模型的資料部分。

變數

對記錄的任何測量值,包括輸入(X)變數和輸出(Y)變數。

1.8 本文導航

圖 1.2 從過程角度闡述了機器學習,並指出本文中的主題在其中的位置。章節號碼在每個主題旁邊顯示。表 1.1 提供了一個不同的視角:它根據資料的型別和結構組織了監督式和非監督式機器學習程式。

資料準備、探索和降維

本文涵蓋了許多廣泛使用的預測和分類別方法,以及其他機器學習工具。

資料科學與機器學習基礎

資料科學與機器學習是現代科技中兩個非常重要的領域,它們在各種應用中發揮著關鍵作用。從資料準備到預測和分類別,瞭解這些過程的每一步驟對於構建一個強大的機器學習模型至關重要。

資料準備

資料準備是機器學習中的一個基本步驟,包括資料清理、資料轉換和資料特徵工程等。這一步驟的目的是為了確保資料的品質和一致性,以便於後續的分析和模型訓練。資料準備的過程中,可能需要處理缺失值、異常值和噪聲資料等問題。

資料視覺化

資料視覺化是一種透過圖形和圖表來展示資料的方法,可以幫助我們更好地理解資料的分佈、相關性和模式。常用的視覺化工具包括折線圖、柱狀圖、散點圖等。透過視覺化,可以快速地發現資料中的規律和特徵,從而為模型的選擇和最佳化提供依據。

降維

降維是一種用於高維資料的技術,旨在將高維資料對映到低維空間中,以便於視覺化和分析。常用的降維方法包括主成分分析(PCA)和t-SNE等。降維可以幫助我們更好地理解高維資料的結構和模式,從而提高模型的效能。

預測

預測是機器學習中的一個基本任務,涉及使用模型預測未知資料的標籤或值。根據預測的型別,可以分為迴歸和分類別兩大類別。

線性迴歸

線性迴歸是一種常用的迴歸演算法,假設預測值與特徵之間存線上性關係。線性迴歸模型可以用於預測連續值,例如房價、股票價格等。

k-Nearest Neighbors(k-NN)

k-NN是一種簡單 yet有效的演算法,根據鄰近樣本的標籤或值來預測新的樣本。k-NN可以用於迴歸和分類別任務。

迴歸樹

迴歸樹是一種根據樹結構的演算法,透過遞迴地劃分資料空間來預測連續值。迴歸樹可以用於處理高維資料和非線性關係。

神經網路

神經網路是一種強大的模型,可以學習複雜的非線性關係和模式。神經網路可以用於迴歸和分類別任務,尤其是在影像和語音識別等領域中。

分類別

分類別是一種基本的機器學習任務,涉及將新的樣本分配到已知的類別中。根據分類別的型別,可以分為二元分類別和多元分類別兩大類別。

k-Nearest Neighbors(k-NN)

k-NN可以用於分類別任務,根據鄰近樣本的標籤來預測新的樣本。

羅吉斯迴歸

羅吉斯迴歸是一種常用的分類別演算法,假設預測值與特徵之間存在羅吉斯關係。羅吉斯迴歸模型可以用於二元分類別任務。

分類別樹

分類別樹是一種根據樹結構的演算法,透過遞迴地劃分資料空間來預測類別標籤。分類別樹可以用於處理高維資料和非線性關係。

神經網路

神經網路可以用於分類別任務,尤其是在影像和語音識別等領域中。

圖表翻譯:

  graph LR
    A[資料準備] --> B[資料視覺化]
    B --> C[降維]
    C --> D[預測]
    D --> E[線性迴歸]
    D --> F[k-NN]
    D --> G[迴歸樹]
    D --> H[神經網路]
    D --> I[分類別]
    I --> J[k-NN]
    I --> K[羅吉斯迴歸]
    I --> L[分類別樹]
    I --> M[神經網路]

內容解密:

以上所述的機器學習演算法和技術都是根據特定的假設和模型,需要根據具體問題和資料來選擇合適的演算法和模型。同時,需要注意到過度擬合和欠擬合等問題,以確保模型的泛化能力和效能。

從商業價值視角來看,本文《機器學習商業分析》從資料探勘的早期版本迭代至今,凝聚了眾多專家學者和實務工作者的心血,體現了機器學習在商業分析領域不斷演進的過程。透過詳盡的致謝和導論,本文展現了其整合學術研究和產業實踐的目標,力求在理論深度和應用廣度之間取得平衡。本文不僅涵蓋了機器學習的核心概念和方法,例如預測分析、分類別、監督式與非監督式學習等,更強調了資料準備、視覺化和降維等在實務操作中的關鍵步驟,突顯其務實的應用導向。同時,針對大資料和資料科學等新興領域的討論,也展現了本文與時俱進的前瞻視野。然而,本文內容的深度和廣度也可能對初學者造成一定的理解門檻,需要讀者具備一定的統計學和機器學習基礎。對於希望深入學習機器學習並應用於商業分析的讀者而言,本文提供了全面且有價值的學習資源,建議搭配實務案例操作,以加深理解並提升實戰能力。未來,隨著機器學習技術的持續發展和商業應用的不斷拓展,預計本文也將持續更新迭代,以保持其在商業分析領域的領先地位。