資料框架欄位算術與資料處理技巧

Pandas 是 Python 資料科學領域的核心工具，其 DataFrame 提供了強大的資料操作功能。在實際應用中，我們經常需要對 DataFrame 的欄位進行算術運算，例如調整薪資、計算比例等。此外，新增欄位、處理缺失值以及最佳化資料儲存也是資料分析流程中不可或缺的環節。本文將示範如何使用 Pandas DataFrame 進行這些操作，並提供一些實用的技巧。首先，我們會介紹如何對數值欄位進行加、減、乘、除等基本算術運算，接著說明如何新增欄位並為其指定。在資料清理方面，我們將探討如何使用 fillna 函式填充缺失值，以及如何使用 dropna 函式刪除含有缺失值的列。最後，我們將介紹如何使用 astype 函式轉換資料型別，以及如何利用類別資料型態最佳化記憶體使用，提升程式效能。

資料框架的算術運算

在進行資料分析時，常需要對資料框架（dataframe）進行算術運算。然而，資料框架由於包含多個欄位，不能直接對整個資料框架進行算術運算。但是，透過選擇特定的欄位，可以對其進行算術操作。

範例：對「Salary」欄位進行算術運算

首先，讓我們載入必要的函式庫並建立一個資料框架。假設我們有一個名為「Arithmetic_Example.csv」的檔案，其中包含了一些員工的薪水資料。

import pandas as pd

# 載入資料
mydf = pd.read_csv('Arithmetic_Example.csv')

# 顯示原始資料
print(mydf)

接下來，我們可以對「Salary」欄位進行加、減、乘、除等算術運算。

加法運算

# 對「Salary」欄位加 1000
print("加法運算：")
print(mydf['Salary'].add(1000))
print(mydf['Salary'] + 1000)  # 1000 會被廣播到每個值

減法運算

# 對「Salary」欄位減 1000
print("減法運算：")
print(mydf['Salary'].sub(1000))

乘法運算

# 對「Salary」欄位乘以 1000
print("乘法運算：")
print(mydf['Salary'].mul(1000))

除法運算

# 對「Salary」欄位除以 1000
print("除法運算：")
print(mydf['Salary'].div(1000))

這些運算結果將展示如何對資料框架中的特定欄位進行算術操作，從而對資料進行變換和分析。

圖表翻譯：

  flowchart TD
    A[載入資料] --> B[選擇欄位]
    B --> C[加法運算]
    B --> D[減法運算]
    B --> E[乘法運算]
    B --> F[除法運算]
    C --> G[顯示結果]
    D --> G
    E --> G
    F --> G

這個流程圖描述瞭如何從載入資料開始，選擇需要進行運算的欄位，然後分別進行加、減、乘、除等算術運算，最後顯示出每個運算的結果。這樣的流程有助於理解和實作對資料框架中特定欄位的算術操作。

資料操作與計算

在進行資料分析時，常常需要對資料進行各種操作，例如加法、減法、乘法等。以下是對於員工薪水資料進行這些操作的示例。

原始資料

Employee Name	Salary
John Deo	10000
Donald	20000
Recky	40000
Depp	50000

加法運算

對於每個員工的薪水，我們增加了一定的金額。假設這個增加金額是1000，那麼新的薪水資料將是：

Employee Name	New Salary
John Deo	11000
Donald	21000
Recky	41000
Depp	51000

這個過程可以用程式碼實作，例如使用Python的Pandas函式庫：

import pandas as pd

# 原始資料
data = {
    'Employee Name': ['John Deo', 'Donald', 'Recky', 'Depp'],
    'Salary': [10000, 20000, 40000, 50000]
}

df = pd.DataFrame(data)

# 加法運算
df['New Salary'] = df['Salary'] + 1000

print(df)

減法運算

同樣地，對於每個員工的薪水，我們減去了一定的金額。假設這個減去金額是1000，那麼新的薪水資料將是：

Employee Name	New Salary
John Deo	9000
Donald	19000
Recky	39000
Depp	49000

這也可以用程式碼實作：

# 減法運算
df['New Salary'] = df['Salary'] - 1000

print(df)

乘法運算

對於每個員工的薪水，我們乘以了一定的倍數。假設這個倍數是10，那麼新的薪水資料將是：

Employee Name	New Salary
John Deo	100000
Donald	200000
Recky	400000
Depp	500000

程式碼實作如下：

# 乘法運算
df['New Salary'] = df['Salary'] * 10

print(df)

內容解密：

以上程式碼示例展示瞭如何使用Python的Pandas函式庫對資料進行加法、減法和乘法運算。這些操作在資料分析中非常常見，能夠幫助我們更好地理解和處理資料。

圖表翻譯：

以下是對於上述資料操作過程的Mermaid圖表表示：

  flowchart TD
    A[原始資料] --> B[加法運算]
    B --> C[減法運算]
    C --> D[乘法運算]
    D --> E[結果輸出]

這個圖表展示了資料從原始狀態開始，經過加法、減法和乘法運算，最終輸出結果的過程。

新增資料欄位至 DataFrame

在 Pandas 中，我們可以使用 DataFrame['column_name'] = value 的方式新增一個欄位至現有的 DataFrame。這個欄位可以是數值、字串或其他型別的資料。

範例程式碼

import pandas as pd

# 載入員薪水料
mydf = pd.read_csv('employees_salary2.csv')

# 顯示原始資料
print(mydf)
print('-'*50)

# 新增 'salary' 欄位，並將所有值設為 20000
mydf['salary'] = 20000

# 顯示更新後的資料
print(mydf)
print('-'*50)

內容解密：

在這個範例中，我們首先載入員薪水料至 mydf DataFrame。接下來，我們使用 mydf['salary'] = 20000 的方式新增一個 ‘salary’ 欄位，並將所有值設為 20000。如果 ‘salary’ 欄位已經存在，則舊值會被新值取代。

圖表翻譯：

  flowchart TD
    A[載入員薪水料] --> B[新增 'salary' 欄位]
    B --> C[顯示更新後的資料]

圖表翻譯：

此圖表描述了新增欄位至 DataFrame 的過程。首先，我們載入員薪水料至 mydf。接下來，我們新增 ‘salary’ 欄位，並將所有值設為 20000。最後，我們顯示更新後的資料。

將城市欄位新增至DataFrame

首先，我們將新增一個名為「City」的欄位至DataFrame，並將所有列的值設定為「Durg」。

import pandas as pd
import numpy as np

# 建立初始DataFrame
data = {
    'Employee Name': ['John Deo', 'Donald'],
    'Salary': [100000.0, np.nan]
}
mydf = pd.DataFrame(data)

# 新增城市欄位，所有列的值為「Durg」
mydf['City'] = "Durg"

print(mydf)
print('-'*50)

將國家欄位新增至DataFrame

接下來，我們將新增一個名為「Country」的欄位，並為每一列指定不同的國家。

# 新增國家欄位，每列有不同的國家
mydf['Country'] = ['India', 'UK']

print(mydf)
print('-'*50)

注意：提供的國家數量必須與列數相符

如果提供的國家數量少於列數，將會引發ValueError。例如，如果我們只提供兩個國家名稱，而DataFrame中有三列資料，則會出現錯誤。

# 嘗試新增年齡欄位，但只提供兩個值
try:
    mydf['Age'] = [10, 20]
    print(mydf)
except ValueError as e:
    print(f"發生錯誤：{e}")

在這個例子中，由於我們只提供了兩個年齡值，而DataFrame中有三列資料，因此會引發ValueError。為了避免這個問題，必須確保提供的值數量與列數相符。

資料整合與分析

在進行資料整合與分析時，常會遇到來自不同來源的資料需要合併成一個統一的資料集，以便進行進一步的分析。在這個過程中，可能會遇到資料欄位不全或缺失值的問題。

資料合併

當我們有多個資料表需要合併時，可以使用 pandas 的 concat 函式。假設我們有兩個資料表，df1 和 df2，它們都有相同的欄位 Name 和 Salary，但 df2 還有額外的欄位 City 和 Country。

import pandas as pd
import numpy as np

# 建立資料表 df1
df1 = pd.DataFrame({
    'Name': ['John Deo', 'Donald', 'Recky'],
    'Salary': [100000.0, np.nan, 400000.0],
    'salary': [20000, 20000, 20000]
})

# 建立資料表 df2
df2 = pd.DataFrame({
    'Name': ['John Deo', 'Donald', 'Recky'],
    'Salary': [100000.0, np.nan, 400000.0],
    'salary': [20000, 20000, 20000],
    'City': ['Durg', 'Durg', 'Durg'],
    'Country': ['India', 'UK', np.nan]
})

# 合併資料表
df = pd.concat([df1, df2], ignore_index=True)

處理缺失值

在合併資料表後，可能會遇到缺失值的問題。可以使用 dropna 函式刪除含有缺失值的列，或者使用 fillna 函式填充缺失值。

# 刪除含有缺失值的列
df.dropna(inplace=True)

# 填充缺失值
df['Country'].fillna('Unknown', inplace=True)

資料分析

在資料整合與分析中，需要根據業務需求進行不同的分析。例如，可以計算每個城市的平均薪水，或者統計每個國家的員作業員數。

# 計算每個城市的平均薪水
city_avg_salary = df.groupby('City')['Salary'].mean()

# 統計每個國家的員作業員數
country_employee_count = df.groupby('Country')['Name'].count()

內容解密：

以上程式碼示範瞭如何合併資料表、處理缺失值和進行資料分析。首先，建立兩個資料表 df1 和 df2，然後使用 concat 函式合併它們。接著，刪除含有缺失值的列或填充缺失值。最後，根據業務需求進行不同的分析，例如計算每個城市的平均薪水或統計每個國家的員作業員數。

圖表翻譯：

以下是使用 Mermaid 圖表語言繪製的資料流程圖：

  flowchart TD
    A[資料表 df1] --> B[資料表 df2]
    B --> C[合併資料表]
    C --> D[處理缺失值]
    D --> E[資料分析]
    E --> F[計算每個城市的平均薪水]
    E --> G[統計每個國家的員作業員數]

圖表翻譯：

此圖表示資料從兩個原始資料表 df1 和 df2 合併成一個統一的資料表，然後進行缺失值處理和資料分析。根據業務需求，可以計算每個城市的平均薪水或統計每個國家的員作業員數。

使用pandas的insert方法插入新欄位

在pandas中，insert方法可以用來在DataFrame中插入新欄位。這個方法允許你指定插入位置、欄位名稱和值。

基本語法

insert(loc, column, value, allow_duplicates=False)

loc: 欄位插入的位置，從0開始。
column: 新欄位的名稱。
value: 新欄位的值，可以是單一值或是一個列表。
allow_duplicates: 是否允許插入相同名稱的欄位，預設為False。

範例

首先，讓我們建立一個簡單的DataFrame：

import pandas as pd

# 建立一個簡單的DataFrame
data = {
    'Employee Name': ['John Deo', 'Recky', 'Rahul'],
    'Salary': [100000.0, 400000.0, 20000]
}
mydf = pd.DataFrame(data)

print(mydf)

現在，我們想在第二個位置（索引1）插入一個名為City的新欄位，值分別為Durg、Raipur和Bhilai：

# 在第二個位置插入新欄位
mydf.insert(1, 'City', ['Durg', 'Raipur', 'Bhilai'])

print(mydf)

如果你試圖再次插入一個名為City的欄位，而allow_duplicates為False，則會丟擲一個ValueError：

# 嘗試再次插入同名欄位
try:
    mydf.insert(1, 'City', ['Hyderabad', 'Bhopal', 'Indore'])
except ValueError as e:
    print(e)

要允許插入同名欄位，可以將allow_duplicates設為True：

# 允許插入同名欄位
mydf.insert(1, 'City', ['Hyderabad', 'Bhopal', 'Indore'], allow_duplicates=True)

print(mydf)

結果

最終的DataFrame將包含兩個名為City的欄位，每個欄位對應不同的城市列表。

注意：在實際應用中，允許同名欄位可能會導致混淆和資料處理上的問題，因此應謹慎使用。

處理DataFrame中的缺失值

在使用pandas進行資料分析時，常會遇到缺失值（NaN）的問題。為了處理這些缺失值，pandas提供了fillna()方法，可以用來替換缺失值。

使用`fillna()`方法

fillna()方法可以根據指定的值或計算結果來替換缺失值。以下是其語法：

fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

其中，value引數指定了用來替換缺失值的值，可以是一個單一值、字典、Series或DataFrame。

範例

假設我們有一個DataFrame，包含員工的姓名、城市和薪水，但有些值是缺失的。

import pandas as pd

# 建立一個DataFrame
data = {
    'Employee Name': ['John Deo', 'Donald', 'Recky'],
    'City': ['Durg', 'Raipur', 'Bhilai'],
    'Salary': [100000.0, None, 400000.0]
}
df = pd.DataFrame(data)

print(df)

輸出：

  Employee Name    City  Salary
0      John Deo    Durg  100000.0
1       Donald  Raipur      NaN
2        Recky  Bhilai  400000.0

現在，我們可以使用fillna()方法來替換缺失值。例如，替換為0：

df_filled = df.fillna(0)
print(df_filled)

輸出：

  Employee Name    City  Salary
0      John Deo    Durg  100000.0
1       Donald  Raipur      0.0
2        Recky  Bhilai  400000.0

但是，替換為0可能不是最有意義的選擇。根據具體情況，可以選擇其他替換策略，例如使用平均值或中位數。

根據欄位資料型別提供不同填充值

在資料清理的過程中，根據欄位的資料型別，我們可以提供不同的填充值。例如，對於數值欄位，我們可以使用統計方法（如平均值、眾數）來填充缺失值；而對於文字欄位，我們可能需要使用特定的文字字串來填充。

範例：填充薪資欄位的缺失值

假設我們有一個名為 mydf 的 DataFrame，其中有一欄名為 Salary 的數值欄位。我們想要將這個欄位中的所有缺失值替換為 20000。

import pandas as pd
import numpy as np

# 建立一個範例 DataFrame
data = {
    'Employee Name': ['My John Rob', 'Asruid', 'Tes Qry', 'Big John', np.nan],
    'Salary': [10000.0, 170000.0, np.nan, 109000.0, np.nan],
    'Location': ['Bhopal', 'Raipur', np.nan, np.nan, np.nan]
}
mydf = pd.DataFrame(data)

# 將 Salary 欄位中的缺失值替換為 20000
mydf['Salary'].fillna(20000, inplace=True)

print(mydf)
print('-'*50)

範例：填充員工姓名欄位的缺失值

接下來，我們想要將 Employee Name 欄位中的缺失值替換為 'Dummy'。

# 將 Employee Name 欄位中的缺失值替換為 'Dummy'
mydf['Employee Name'].fillna('Dummy', inplace=True)

print(mydf)

輸出結果：

  Employee Name   Salary Location
0     My John Rob  10000.0    Bhopal
1         Asruid  17000.0     Raipur
2         Tes Qry  20000.0       NaN
3        Big John  10900.0       NaN
4           Dummy  20000.0       NaN
--------------------------------------------------

圖表翻譯：

  flowchart TD
    A[開始] --> B[載入資料]
    B --> C[檢查缺失值]
    C --> D[填充薪資欄位缺失值]
    D --> E[填充員工姓名欄位缺失值]
    E --> F[輸出結果]

內容解密：

在這個範例中，我們使用 fillna() 方法來替換 DataFrame 中的缺失值。對於 Salary 欄位，我們使用 20000 作為填充值；而對於 Employee Name 欄位，我們使用 'Dummy' 作為填充值。這些填充值可以根據實際需求進行調整。

資料清理與處理

在進行資料分析之前，資料清理是一個非常重要的步驟。資料清理的目的是去除資料中不完整、不正確或不一致的部分，以確保資料的品質和可靠性。

缺失值處理

在上面的資料中，我們可以看到有一些缺失值，例如「NaN」（Not a Number）的出現。這些缺失值可能是由於資料輸入錯誤、資料丟失或其他原因造成的。

缺失值檢查

首先，我們需要檢查資料中哪些欄位有缺失值。使用Python的pandas函式庫，可以使用以下程式碼進行檢查：

import pandas as pd

# 載入資料
data = pd.read_csv('data.csv')

# 檢查缺失值
print(data.isnull().sum())

這將會輸出每個欄位中缺失值的數量。

缺失值填充

接下來，我們需要填充缺失值。根據資料的特性和分析的需求，我們可以使用不同的方法填充缺失值。例如，我們可以使用均值、眾數或是其他統計量來填充缺失值。

以下是使用均值填充缺失值的程式碼：

# 填充缺失值
data['Salary'] = data['Salary'].fillna(data['Salary'].mean())
data['Location'] = data['Location'].fillna('Unknown')

這將會使用均值填充「Salary」欄位的缺失值，並使用「Unknown」填充「Location」欄位的缺失值。

資料轉換

在某些情況下，資料可能需要進行轉換才能進行分析。例如，日期欄位可能需要轉換為適合分析的格式。

日期轉換

假設我們有一個日期欄位需要轉換為適合分析的格式。以下是使用Python的pandas函式庫進行日期轉換的程式碼：

# 轉換日期欄位
data['Date'] = pd.to_datetime(data['Date'])

這將會將日期欄位轉換為適合分析的格式。

資料驗證

最後，我們需要驗證資料是否正確無誤。這可以透過檢查資料的分佈、統計量和其他特性來完成。

資料分佈檢查

以下是使用Python的pandas函式庫檢查資料分佈的程式碼：

# 檢查資料分佈
print(data.describe())

這將會輸出資料的統計量，包括均值、標準差、最小值、最大值等。

資料視覺化

我們也可以使用視覺化工具來檢查資料的分佈和特性。以下是使用Python的matplotlib函式庫進行資料視覺化的程式碼：

import matplotlib.pyplot as plt

# 視覺化資料
plt.hist(data['Salary'])
plt.show()

這將會輸出一個直方圖，顯示「Salary」欄位的分佈。

透過上述步驟，我們可以確保資料的品質和可靠性，為後續的分析和模型建立提供一個堅實的基礎。

資料清理與資料型別轉換

在進行資料分析時，經常會遇到缺失值（NaN）和資料型別不符的問題。這些問題不僅會影響資料的準確性，也會浪費記憶體空間。因此，瞭解如何清理資料和轉換資料型別是非常重要的。

缺失值處理

首先，我們來看一下如何處理缺失值。假設我們有一個名為 sample_fillna.csv 的檔案，內容如下：

Employee Name	Salary	Location
Asruid	170000.0	Raipur
Tes Qry	20000.0	NaN
Big John	109000.0	NaN
Dummy	20000.0	NaN

由於某些列中存在 NaN 值，因此整個列的資料型別會被轉換為 float，這會浪費記憶體空間。為了避免這個問題，我們可以使用 dropna() 方法刪除含有 NaN 值的列。

import pandas as pd

# 讀取 CSV 檔案
df = pd.read_csv('sample_fillna.csv')

# 刪除含有 NaN 值的列
df.dropna(inplace=True)

print(df)
print(df.info())

資料型別轉換

刪除 NaN 值後，我們可以使用 astype() 方法將指定列的資料型別轉換為 int。這樣可以節省記憶體空間。

# 將 Salary 列轉換為 int 型別
df['Salary'] = df['Salary'].astype('int')

print(df)
print(df.info())

內容解密：

dropna() 方法：用於刪除 DataFrame 中含有 NaN 值的列。
astype() 方法：用於將 DataFrame 中的資料型別轉換為指定的型別。
inplace=True 引數：表示直接修改原 DataFrame，不傳回新的 DataFrame。

圖表翻譯：

  flowchart TD
    A[讀取 CSV 檔案] --> B[刪除含有 NaN 值的列]
    B --> C[轉換 Salary 列為 int 型別]
    C --> D[輸出結果]

圖表翻譯：

此圖表描述了資料清理和資料型別轉換的流程。首先，讀取 CSV 檔案，然後刪除含有 NaN 值的列，接著轉換 Salary 列為 int 型別，最後輸出結果。

資料分析與處理

在進行資料分析之前，首先需要了解資料的結構和內容。根據提供的資訊，資料包含三個欄位：Employee Name、Salary和Location。這些欄位分別代表員工姓名、薪水和工作地點。

資料結構分析

Employee Name欄位儲存員工的姓名，資料型別為物件（object），表示這個欄位儲存的是字串資料。
Salary欄位儲存員工的薪水，資料型別為浮點數（float64），表示這個欄位儲存的是數值資料。
Location欄位儲存員工的工作地點，資料型別同樣為物件（object），表示這個欄位也儲存的是字串資料。

資料內容分析

根據提供的資料範例，共有兩筆資料記錄：

員工姓名：My John Rob，薪水：10000.0，工作地點：Bhopal
員工姓名：Asruid，薪水：170000.0，工作地點：Raipur

資料處理與分析

對於這些資料，可以進行多種分析和處理，例如：

統計分析：計算所有員工的平均薪水、最高薪水、最低薪水等統計指標。
分組分析：根據工作地點分組，計算每個地點的員作業員數、平均薪水等。
資料視覺化：使用圖表來展示薪水分佈、工作地點分佈等，以便更直觀地理解資料。

實際應用

在實際應用中，這些資料可以用於人力資源管理、薪酬分析、徵才策略制定等方面。例如，人力資源部門可以根據薪水資料調整公司的薪酬標準，或者根據工作地點分佈調整徵才策略。

程式碼實作

以下是一個簡單的Python程式碼範例，使用Pandas函式庫來讀取和分析資料：

import pandas as pd

# 假設資料存在一個名為data.csv的檔案中
data = pd.read_csv('data.csv')

# 顯示資料結構
print(data.info())

# 顯示資料內容
print(data)

# 計算平均薪水
average_salary = data['Salary'].mean()
print(f'平均薪水：{average_salary}')

# 根據工作地點分組，計算每個地點的員作業員數
location_counts = data['Location'].value_counts()
print(location_counts)

內容解密：

pd.read_csv('data.csv')：讀取名為data.csv的檔案到一個DataFrame物件中。
data.info()：顯示DataFrame的結構資訊，包括欄位名稱、資料型別和非空值計數。
data：直接列印DataFrame的內容。
data['Salary'].mean()：計算Salary欄位的平均值。
data['Location'].value_counts()：根據Location欄位的值進行分組，計算每個地點出現的次數。

圖表翻譯：

以下是使用Mermaid語法繪製的一個簡單流程圖，展示瞭如何讀取和分析資料：

  flowchart TD
    A[讀取資料] --> B[顯示資料結構]
    B --> C[顯示資料內容]
    C --> D[計算平均薪水]
    D --> E[根據工作地點分組]
    E --> F[顯示分組結果]

圖表翻譯：

A[讀取資料]：開始流程，讀取資料到DataFrame中。
B[顯示資料結構]：顯示DataFrame的結構資訊。
C[顯示資料內容]：顯示DataFrame的內容。
D[計算平均薪水]：計算Salary欄位的平均值。
E[根據工作地點分組]：根據Location欄位的值進行分組。
F[顯示分組結果]：顯示分組結果。

最佳化資料儲存：使用類別資料型態

在處理大型資料集時，最佳化資料儲存對於節省記憶體資源和提高程式效能至關重要。其中一個有效的方法是使用類別（category）資料型態，特別是在處理具有有限唯一值的欄位時。

什麼是類別資料型態？

類別資料型態是一種特殊的資料型態，適用於欄位中只有有限數量的唯一值。例如，在一個員薪水料表中，「城市」欄位可能只包含幾個不同的城市名稱，如臺北、臺中、臺南等。使用類別資料型態可以將這些唯一值對映到整數索引，從而減少記憶體的使用。

最佳化記憶體使用

當我們使用類別資料型態時，Pandas會自動將唯一值對映到整數索引，並將原始值儲存在一個單獨的陣列中。這樣可以避免為每一行資料都建立一個新的字串物件，從而節省記憶體資源。

實際範例

假設我們有一個CSV檔案category_example.csv，其中包含一個「城市」欄位，具有多個重複的城市名稱。若我們直接讀取這個檔案，Pandas會將「城市」欄位視為字串型態，為每一行資料建立一個新的字串物件。然而，若我們將「城市」欄位轉換為類別資料型態，Pandas就會將唯一的城市名稱對映到整數索引，並將原始值儲存在一個單獨的陣列中。

import pandas as pd

# 讀取CSV檔案
df = pd.read_csv('category_example.csv')

# 顯示資料資訊
print(df.info())

# 將「城市」欄位轉換為類別資料型態
df['City'] = df['City'].astype('category')

# 再次顯示資料資訊
print(df.info())

結果分析

在轉換「城市」欄位為類別資料型態後，Pandas會顯示更新的資料資訊，包括記憶體使用量的減少。這是因為類別資料型態只需儲存唯一值和整數索引，而不是為每一行資料建立一個新的字串物件。

從技術架構視角來看，本文深入淺出地介紹瞭如何在 Pandas 資料框架中進行算術運算、新增欄位、處理缺失值以及最佳化資料儲存等常見操作。藉由詳盡的程式碼範例和圖表說明，開發者可以快速掌握這些技巧並應用於實際的資料分析專案中。然而，Pandas 的效能瓶頸仍然存在，尤其在處理極大型資料集時，記憶體管理和運算效率仍有待提升。對於追求極致效能的應用，可以考慮使用 Dask 或 Spark 等分散式運算框架。玄貓認為，熟練掌握 Pandas 的基本操作是資料分析的基本，同時也應持續關注新技術的發展，才能在資料科學的浪潮中保持競爭力。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。

資料框架欄位算術與資料處理技巧

資料框架的算術運算

範例：對「Salary」欄位進行算術運算

加法運算

減法運算

乘法運算

除法運算

圖表翻譯：

資料操作與計算

原始資料

加法運算

減法運算

乘法運算

內容解密：

圖表翻譯：

新增資料欄位至 DataFrame

範例程式碼

內容解密：

圖表翻譯：

圖表翻譯：

將城市欄位新增至DataFrame

將國家欄位新增至DataFrame

注意：提供的國家數量必須與列數相符

資料整合與分析

資料合併

處理缺失值

資料分析

內容解密：

圖表翻譯：

圖表翻譯：

使用pandas的insert方法插入新欄位

基本語法

範例

結果

處理DataFrame中的缺失值

使用fillna()方法

範例

根據欄位資料型別提供不同填充值

範例：填充薪資欄位的缺失值

範例：填充員工姓名欄位的缺失值

輸出結果：

圖表翻譯：

內容解密：

資料清理與處理

缺失值處理

缺失值檢查

缺失值填充

資料轉換

日期轉換

資料驗證

資料分佈檢查

資料視覺化

資料清理與資料型別轉換

缺失值處理

資料型別轉換

內容解密：

圖表翻譯：

圖表翻譯：

資料分析與處理

資料結構分析

資料內容分析

資料處理與分析

實際應用

程式碼實作

內容解密：

圖表翻譯：

圖表翻譯：

最佳化資料儲存：使用類別資料型態

什麼是類別資料型態？

最佳化記憶體使用

實際範例

結果分析

玄貓

使用`fillna()`方法