機器學習資料集品質提升策略

機器學習模型的效能與訓練資料集的品質息息相關。充足的樣本大小和乾淨的標籤是確保模型泛化能力的關鍵。本文除了探討樣本大小的計算方法和標籤雜訊的檢測與避免策略外，也涵蓋了實際應用中常見的資料錯誤型別，例如缺失值、感測器問題和不一致的資料表示等，並提供相應的處理方法。此外，文章也探討了資料漂移的概念以及如何應對漂移帶來的挑戰，同時也介紹了資料準備流程，包含標籤化、格式化、清理、特徵工程、分割和資料增強等步驟。最後，文章也討論了資料標註的挑戰，例如如何有效地進行自動標註和輔助標註，以及在一些特定情況下如何利用無監督學習或半監督學習來減少對標註資料的依賴，並探討了標註偏差的來源與影響，以及如何選擇合適的標註工具來提升標註品質。

資料集品質的重要性：樣本大小與標籤雜訊

在機器學習專案中，資料集的品質直接影響模型的效能。資料集的品質問題主要來自兩個方面：代表性和標籤雜訊。本文將探討這兩個問題，並提供實用的解決方案。

樣本大小的計算

要確保資料集具有代表性，首先需要確定適當的樣本大小。樣本大小的計算公式如下：

樣本大小 = (Z 分數)^2 * 標準差 * (1 - 標準差) / (誤差範圍)^2

其中，Z 分數代表信賴水準，標準差代表資料的變異程度，誤差範圍代表允許的誤差範圍。

內容解密：

Z 分數：代表信賴水準，例如 95% 的信賴水準對應的 Z 分數為 1.96。
標準差：代表資料的變異程度，為了保險起見，通常設為 0.5。
誤差範圍：代表允許的誤差範圍，例如 5%。

import math

def calculate_sample_size(z_score, standard_deviation, margin_of_error):
    return (z_score ** 2) * standard_deviation * (1 - standard_deviation) / (margin_of_error ** 2)

z_score = 1.96  # 95% 信賴水準
standard_deviation = 0.5  # 保守估計
margin_of_error = 0.05  # 5% 誤差範圍

sample_size = calculate_sample_size(z_score, standard_deviation, margin_of_error)
print("樣本大小：", math.ceil(sample_size))

內容解密：

函式定義：calculate_sample_size 函式用於計算樣本大小。
引數設定：Z 分數設為 1.96，標準差設為 0.5，誤差範圍設為 0.05。
計算結果：樣本大小約為 385。

標籤雜訊的問題

標籤雜訊是指資料標籤中的錯誤。研究表明，即使是公開的資料集，也可能存在平均 3.4% 的標籤錯誤率。標籤雜訊會影響模型的效能，因此需要採取措施減少標籤雜訊。

如何檢測標籤雜訊？

隨機抽樣檢查：隨機抽取樣本檢查標籤是否正確。
異常值檢測：使用降維技術或模型信心度來檢測異常值。

圖表翻譯： 此圖示展示了檢測標籤雜訊的兩種方法：隨機抽樣檢查和異常值檢測。隨機抽樣檢查是直接從資料集中抽取樣本進行檢查，而異常值檢測則是透過降維技術或模型信心度來找出可能的錯誤標籤。

如何避免標籤雜訊？

提高標註品質：確保標註人員具有足夠的專業知識和經驗。
多重驗證：對標註結果進行多重驗證，以減少錯誤率。

資料品質問題：理解與應對

在開發邊緣 AI 專案時，資料品質是成功的關鍵因素之一。資料錯誤或不一致性可能會對模型的效能產生重大影響，因此瞭解常見的資料錯誤型別並採取措施加以解決至關重要。

標籤雜訊（Label Noise）

標籤雜訊通常是由於人類在標記資料時的錯誤所導致。即使具有正確知識的人類，也可能在重複性任務（如資料標記）中犯錯。此外，有時資料本身並不清楚應該使用什麼標籤。例如，即使是醫學專家，也可能對於診斷影像是否顯示疾病存在分歧。

減少標籤雜訊的方法

提供標籤：對於需要大量標記工作的專案，提供一本「標籤」手冊，包含明確的指導方針和範例。
使用多個標記者：使用多個標記者來標記資料。如果標記者對於某個標籤存在分歧，可以將該樣本標記為需要進一步檢查。
投票系統：對於沒有明確答案的樣本，可以使用投票系統來決定最終的標籤，或直接拒絕該樣本。

常見的資料錯誤

除了標籤雜訊之外，還有許多其他型別的資料錯誤可能影響資料品質，包括：

缺失值：由於各種原因，資料集中的某些記錄可能缺少某些特徵的值。
```
# 處理缺失值的簡單範例
import pandas as pd
import numpy as np

# 假設df是一個DataFrame
df = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, 7, 8]
})

# 使用均值填充缺失值
df['A'] = df['A'].fillna(df['A'].mean())
df['B'] = df['B'].fillna(df['B'].mean())

print(df)
```
內容解密：
- 首先，我們匯入了必要的函式庫：pandas 用於資料處理，numpy 用於生成缺失值（NaN）。
- 建立了一個包含缺失值的 DataFrame df。
- 使用 fillna 方法將缺失值替換為對應列的均值。
- df['A'].mean() 計算列 ‘A’ 的均值，並用於填充 ‘A’ 列的缺失值。同樣地，對 ‘B’ 列進行相同的操作。
感測器問題：感測器的技術問題（如過多的雜訊、不正確的校準、環境條件變化等）可能導致資料品質問題。
不正確的值：有時資料集中的值可能不反映實際測量的結果，例如在傳輸過程中被破壞的讀數。
離群值：離群值是指遠超出預期範圍的值。它們可能是自然出現的，但通常是感測器問題或環境條件變化的跡象。
不一致的縮放：相同的數值可能以不同的方式表示，例如溫度讀數可能以攝氏或華氏表示。
不一致的表示：資料點的表示方式可能不同，例如畫素順序在彩色影像中可能是紅、綠、藍或藍、綠、紅。
預期外的取樣率：不一致的取樣率可能導致看似包含非常不同的值的樣本。
不安全的資料：如果從現場收集資料，必須確保有安全機制來收集和傳輸資料，以防止資料被篡改。

資料漂移（Drift）和偏移（Shift）

資料集只是時間上的快照，代表了資料收集期間系統的狀態。由於現實世界的情況會隨著時間變化，即使是最高品質的資料集也可能變得過時。這種變化過程被稱為漂移或概念漂移。

處理漂移的方法

持續更新資料集：保持資料集隨時間更新，以反映現實世界系統的當前狀態。
圖表翻譯：
- 此圖示展示了持續更新資料集和模型的流程。
- 從收集初始資料開始，訓練模型並佈署。
- 佈署後，持續收集新資料並用於更新模型，以保持模型的準確性和適應性。
監控模型效能：監控模型在現場的效能，以檢測任何由於漂移導致的效能下降。

資料品質對機器學習模型的影響

資料品質是機器學習模型效能的關鍵因素。即使在看似簡單的分類別問題中，資料中的錯誤標籤也可能對模型的表現產生重大影響。讓我們考慮一個例子：假設我們有一個包含10個類別的平衡資料集，並且透過抽樣估計，大約有1%的標籤噪聲，即每100個資料樣本中有1個被錯誤標籤。從演算法的角度來看，這似乎是可以接受的。也許我們已經在這個資料上訓練了一個機器學習模型，並且根據其準確率，它看起來是有效的。

不對稱錯誤的影響

然而，如果這1%的錯誤標籤並不是均勻分佈在整個資料集中，而是集中在某一個類別中，那麼情況就會變得嚴重。例如，如果某個類別中有1/10的資料項被錯誤標籤，這將足以嚴重影響模型在該類別上的效能。更糟糕的是，這將影響我們測量該類別效能的能力，就像我們對其他類別所做的那樣。

錯誤也可能在非類別的子群體中不對稱地分佈。例如，假設我們的資料集恰好包含了從三種不同型號的汽車中收集的資料。如果其中一種汽車型號的感測器有故障，那麼來自該型號的資料可能包含錯誤。這比在類別間存在不對稱錯誤更危險，因為使用標準效能指標更難檢測到這種影響。

不對稱錯誤導致的偏差

不對稱錯誤可能會導致演算法中的偏差，因為它們對某些子群體的系統效能影響更大。在檢查資料中的錯誤時，我們應該格外小心地考慮資料子群體的錯誤率，即使整體錯誤率看起來是可以接受的。同樣，領域專業知識在確定子群體以及如何最好地檢查它們方面將非常有幫助。

資料準備流程

從原始資料到高品質的資料集是一個漫長的過程，涉及許多步驟。在下一節中，我們將逐步瞭解這個過程。以下是我們將要討論的主要步驟：

標籤化（Labeling）

典型的邊緣AI資料集反映了原始輸入（例如一些時間序列感測器資料）與這些輸入的含義之間的對映關係。我們的任務通常是建立或訓練一套演算法系統，可以自動執行這種對映：當給出一組原始輸入時，它告訴我們這些輸入的含義。然後，我們的應用程式可以使用這個假定的含義來做出智慧決策。

標籤化的方式

使用特徵進行標籤化：有些資料集是使用其自身的特徵進行標籤化的。例如，假設我們正在建立一個虛擬感測器——一個使用幾個廉價感測器的訊號來預測一個高品質但價格過高的感測器的輸出的系統。在這種情況下，我們的資料集需要包含來自廉價感測器和昂貴感測器的讀數。來自昂貴感測器的讀數將被用作標籤。

# 示例程式碼：使用特徵進行標籤化
import pandas as pd

# 假設data是我們的資料集，包含廉價感測器和昂貴感測器的讀數
data = pd.read_csv('sensor_data.csv')

# 使用昂貴感測器的讀數作為標籤
labels = data['expensive_sensor_reading']

#### 內容解密：
# 這段程式碼展示瞭如何從資料集中提取標籤。
# 首先，我們匯入必要的函式庫pandas，並讀取包含感測器資料的CSV檔案。
# 然後，我們從資料集中提取昂貴感測器的讀數作為我們的標籤。
# 這種方法適用於我們要建立虛擬感測器的情況。

手動標籤化：大多數資料集是由人類故意標籤的。對於某些資料集來說，這很容易：如果樣本是在特定事件期間收集的，那麼它們的標籤應該是什麼可能很明顯。例如，假設你正在收集來自一輛車輛的振動資料，將其標記為“移動”或“怠速”。在這種情況下，如果你當時坐在車輛中，你已經知道每個樣本應該如何標記。
自動標籤化：根據您的資料集，可能可以自動應用標籤。例如，假設您計劃訓練一個微小的、裝置上的ML模型，可以識別不同的活動。您可以根據時間戳和活動日誌自動為資料標籤。

圖表翻譯：資料準備流程圖示

資料標註的挑戰與解決方案

在機器學習專案中，資料標註是一個耗時且昂貴的過程。為了建立一個準確的模型，需要大量的標註資料。然而，在某些情況下，取得標註資料可能非常困難或成本高昂。本篇文章將探討資料標註的挑戰，以及一些解決方案。

自動標註

一種可能的解決方案是使用自動標註。假設你已經有一個大型且準確的機器學習模型，可以對資料進行標註，但這個模型太大，無法在嵌入式裝置上執行。你可以使用這個大型模型對資料集進行自動標註，從而避免了人工標註的工作。

這種方法可以節省大量時間，但並不總是可行。即使可行，也應該假設自動化系統會犯一些錯誤，並且需要一些流程來識別和糾正這些錯誤。

值得注意的是，大型模型的標籤與你正在訓練的模型的標籤之間可能存在差異。例如，假設你正在建立一個系統來識別野生動物聲音。你的目標是佈署一個微小的模型，可以將聲音識別為鳥類別或哺乳動物。如果你的大型模型是設計來識別個別物種，你需要將這些物種對映到「鳥類別」或「哺乳動物」的標籤上。

輔助標註

另一種可能的解決方案是設計一種混合方法，在手動和自動標註之間取得平衡。這種方法可以結合人類的洞察力和自動化任務的優點。例如，假設你正在處理一組影像，需要在特定的物體周圍繪製邊界框。在輔助標註系統中，電腦視覺模型可能會突出顯示每個影像中的感興趣區域，以便你可以檢查它們並決定哪些需要繪製邊界框。

無需標註的問題

根據你試圖解決的問題，你可能根本不需要標註——儘管大多數情況下你還是需要的。

在「傳統機器學習」中，我們遇到了監督學習和無監督學習的概念。在監督學習中，機器學習演算法學習根據輸入資料預測標籤。在無監督學習中，模型學習資料的表示，可以用於其他任務。

無監督演算法不需要標註。例如，假設我們正在訓練一個聚類別演算法進行異常檢測。該演算法不需要標註資料；它只是嘗試學習未標註資料集的內在屬性。在這種情況下，可以認為標籤是隱含的：由於聚類別演算法必須在代表正常（非異常）值的資料上進行訓練，因此你的訓練資料集必須經過仔細篩選，以確保它只包含非異常值。

如果你懷疑你可以透過無監督演算法解決你的問題，你應該在流程的早期嘗試它作為一個實驗。你可能會發現你可以避免標註大量資料，這將節省大量的成本、時間和風險。然而，大多數問題可能最終需要監督學習。

半監督學習和主動學習演算法

標註是資料集收集中最昂貴和最耗時的方面之一。這意味著通常會有大量的未標註資料和少量的已標註資料。許多對邊緣AI感興趣的組織可能擁有長時間收集的IoT資料儲備。這些資料很豐富，但未被標註。

半監督學習和主動學習是兩種技術，旨在幫助利用這類別資料。兩者的基本概念是，部分訓練在小型已標註資料集上的模型可以用來幫助標註更多資料。

半監督學習

半監督學習首先使用小型已標註資料集訓練模型。然後，該模型用於對一批未標註記錄進行預測。這些預測用於標註資料。其中一些可能是錯誤的，但這沒關係。

然後，將這些新標註的記錄與原始已標註資料結合，並使用所有資料訓練新的模型。新的模型應該至少比舊模型好一點，即使它是在舊模型幫助標註的資料上訓練的。然後重複這個過程，直到模型的表現足夠好，可以用於生產。

主動學習

主動學習的過程略有不同。它首先使用可用的小型已標註資料集訓練初始模型。然而，下一步是不同的。該模型不是用於自動標註隨機樣本，而是用於幫助選擇一批看起來最有用的記錄進行標註。然後，領域專家被要求對這些樣本進行標註，並訓練新的模型來利用它們。

選擇過程旨在透過識別哪些未標註樣本包含最有用的資訊來最大化資訊增益。兩種最常見的選擇策略分別稱為不確定性抽樣和多樣性抽樣，可以單獨或組合使用。

不確定性抽樣根據信心度。如果初始模型對某個記錄的分類別很有信心，那麼可以假設使用該記錄進行訓練不會獲得太多額外的資訊。如果模型對某個記錄不確定，那麼這給我們一個訊號，表明模型沒有見過太多類別似的樣本，不知道如何處理它。正是這些樣本最值得我們去標註並新增到資料集中。

多樣性抽樣涉及使用統計技術來瞭解哪些樣本最能代表資料的底層分佈。例如，我們可能會嘗試找到一種方法來量化任意兩個樣本之間的相似性。要選擇新的樣本進行標註，我們會尋找那些與現有已標註資料集中的樣本最不同的樣本。

這個整體過程——選擇一些樣本進行標註，將新的樣本與現有的已標註樣本一起納入訓練資料，並重新訓練模型——會重複進行，直到獲得表現良好的模型。

資料標註中的偏差與工具選擇

在機器學習專案中，資料標註是一個至關重要的步驟。然而，這個過程也可能引入偏差，影響模型的準確性和公平性。本文將探討資料標註中的偏差來源、影響以及如何選擇合適的標註工具來減少這些問題。

標註偏差的來源與影響

資料標註偏差是指在標註過程中，由於各種因素導致的資料標註結果與真實情況之間的差異。這種偏差可能源自多個方面，包括標註人員的專業知識、經驗，甚至是所使用的標註工具。

品質控制系統中的偏差

想像一個工業產品缺陷檢測系統的開發過程。假設我們收集了一批產品圖片，並希望將它們標註為「缺陷」或「正常」。如果我們的領域專家對某些老舊產品不熟悉，那麼他們對這些產品的標註就可能出現錯誤。這樣一來，資料集就反映了領域專家的偏差，而不是真實的產品狀況。

# 簡單的產品缺陷檢測模型訓練示例
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

# 假設df是我們的資料集，包含圖片特徵和標註
df = pd.read_csv('product_data.csv')

# 分割訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(df.drop('label', axis=1), df['label'], test_size=0.2)

# 訓練一個簡單的隨機森林分類別器
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)

# 評估模型效能
accuracy = model.score(X_test, y_test)
print(f"模型準確率：{accuracy:.2f}")

內容解密：

資料載入：使用pandas函式庫載入包含產品圖片特徵和標註的資料集。
資料分割：將資料集分割為訓練集和測試集，以便評估模型的泛化能力。
模型訓練：使用RandomForestClassifier訓練一個隨機森林分類別器。
模型評估：透過測試集評估模型的準確率。

減少標註偏差的方法

為了減少標註偏差，可以採取以下措施：

使用經驗豐富的領域專家進行標註。
遵循檔案化的標註協定，確保標註的一致性。
使用多個標註人員，並讓他們互相檢查工作，以提高標註品質。

標註工具的選擇

根據專案需求，可以選擇不同的標註工具，包括：

標註工具（Annotation Tools）：用於人為標註資料，支援不同型別的資料和任務。
眾包標註（Crowdsourced Labeling）：利用公眾力量進行標註，適合大規模資料，但需要注意品質控制和保密性問題。
輔助和自動化標註（Assisted and Automated Labeling）：結合自動化技術和人為判斷，提高標註效率和品質。

輔助標註工具示例

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title 資料集品質提升策略架構

package "樣本大小計算" {
    component [Z 分數\n(信賴水準)] as z_score
    component [標準差] as std_dev
    component [誤差範圍] as margin
    component [樣本數公式] as sample_formula
}

package "標籤品質控管" {
    component [隨機抽樣檢查] as random_check
    component [異常值檢測] as outlier
    component [標籤雜訊修正] as noise_fix
}

package "資料錯誤處理" {
    component [缺失值處理] as missing
    component [感測器問題] as sensor
    component [不一致資料] as inconsistent
}

package "資料準備流程" {
    component [標籤化] as labeling
    component [格式化清理] as formatting
    component [特徵工程] as feature_eng
    component [資料增強] as augment
}

z_score --> sample_formula
std_dev --> sample_formula
margin --> sample_formula

random_check --> noise_fix
outlier --> noise_fix

missing --> formatting
sensor --> formatting
inconsistent --> formatting

formatting --> labeling
labeling --> feature_eng
feature_eng --> augment

note right of sample_formula
  樣本大小計算：
  n = Z² × σ(1-σ) / E²
  95% 信賴 → Z = 1.96
end note

note right of noise_fix
  標籤雜訊影響：
  - 平均 3.4% 錯誤率
  - 影響模型泛化
  - 需持續監控
end note

@enduml

圖表翻譯： 此圖示展示了一個輔助標註工具的工作流程。該工具利用物件追蹤演算法自動建議邊界框，從而簡化了物件檢測任務中的標註過程。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。