Pandas資料處理技巧與視覺化應用

Pandas 作為 Python 資料科學領域的核心工具，提供強大的資料結構和分析工具。本文將深入探討如何使用 Pandas 進行資料排序、排名、過濾和視覺化，並結合實際案例進行解析，以加深理解並提升資料處理效率。首先，我們會示範如何使用 sort_index 函式對 DataFrame 進行降序排序，接著介紹 rank 函式實作資料排名，並探討不同排名方法的應用。然後，我們將詳細說明布林遮罩的技巧，結合多個條件進行資料篩選。最後，利用 Matplotlib 函式庫將分析結果視覺化，展示如何繪製清晰易懂的圖表，有效傳達資料洞察。

依索引值進行降序排序

當我們需要對DataFrame進行排序時，可以使用sort_index()方法。這個方法允許我們根據索引值對DataFrame進行排序。以下是如何使用它來實作降序排序的範例：

import pandas as pd
import numpy as np

# 建立一個示例DataFrame
data = {
    'Employee Name': ['Rahul', 'Saurabh', 'Divya', 'Saurabh', 'Ankit', 'Saurabh', 'Rohit', 'Saurabh'],
    'Salary': [100000.0, 200000.0, 130000.0, 140000.0, 10000.0, 170000.0, np.nan, 400000.0],
    'City': ['Bhopal', 'Hyderabad', 'Durg', 'Raipur', np.nan, 'Lara', 'Manuguru', 'Mahasamund']
}
mydf = pd.DataFrame(data)

# 對索引值進行降序排序
mydf.sort_index(ascending=False, inplace=True)

# 列印排序後的DataFrame
print(mydf)

內容解密：

建立示例DataFrame：首先，我們建立了一個包含員工姓名、薪水和城市的DataFrame。
使用sort_index()方法：然後，我們使用sort_index()方法對索引值進行降序排序。ascending=False引數指定了降序排序，而inplace=True則表示直接修改原DataFrame。
列印結果：最後，列印排序後的DataFrame以檢視結果。

圖表翻譯：

  flowchart TD
    A[建立DataFrame] --> B[對索引值進行降序排序]
    B --> C[列印排序後的DataFrame]

圖表翻譯：此圖示了對索引值進行降序排序的過程，從建立DataFrame開始，到對索引值進行降序排序，最後列印排序後的DataFrame。

資料整理與分析

在進行資料分析之前，首先需要了解給定的資料結構。這裡有兩組資料，似乎是員工的基本資訊，包括員工編號、姓名、薪水和所在地。

資料結構

員工編號（Employee ID）
員工姓名（Employee Name）
薪水（Salary）
所在地（City）

資料分析

觀察給定的資料，可以發現以下幾點：

員工姓名重複：有些員工姓名出現了多次，例如"Saurabh"，這意味著可能有多個同名的員工。
薪水為NaN：有一筆資料的薪水為NaN（Not a Number），這可能表示缺失的資料或無法計算的值。
所在地為NaN：有一筆資料的所在地為NaN，這同樣可能表示缺失的資料。
薪水範圍：薪水從10,000.0到400,000.0不等，表明薪水範圍相當廣泛。

資料排序

給定的資料似乎已經按照某種順序排列，但具體的排序規則並不明確。根據第二組資料，似乎是按照員工編號從大到小排序，但第一組資料的排序規則不明確。

處理缺失值

在進行進一步分析之前，需要決定如何處理缺失值（NaN）。這可能涉及刪除含有缺失值的行、填充缺失值或使用其他策略根據具體的情況進行處理。

未來分析方向

員工分佈：分析不同城市的員工分佈情況。
薪水統計：計算平均薪水、最高薪水、最低薪水等統計指標。
姓名統計：統計每個姓名出現的次數。

  flowchart TD
    A[資料收集] --> B[資料清理]
    B --> C[資料分析]
    C --> D[結果視覺化]
    D --> E[結論與建議]

圖表翻譯：

此流程圖描述了從資料收集到結論與建議的整個過程。首先，收集相關資料；然後，進行資料清理以處理缺失值和錯誤資料；接下來，對資料進行分析以得出有用的資訊；之後，使用適當的方法將結果視覺化，以便更好地理解和傳達資訊；最後，根據分析結果得出結論並提出建議。

排名系列值

排名是根據資料進行排序的過程，通常用於比較不同資料之間的相對位置。在 Python 中，pandas 函式庫提供了 rank() 方法來對資料進行排名。

使用 `rank()` 方法

rank() 方法可以根據指定的軸（axis）對資料進行排名。當遇到相同的值時，可以使用不同的方法來處理，例如使用平均值、最小值、最大值、第一個值或密集排名。

以下是 rank() 方法的語法：

rank(axis=0, method='average', numeric_only=False, na_option='keep', ascending=True, pct=False)

其中：

axis: 指定排名的軸，預設為 0（即列）。
method: 指定排名的方法，預設為 ‘average’。
numeric_only: 指定是否只對數值進行排名，預設為 False。
na_option: 指定如何處理缺失值，預設為 ‘keep’。
ascending: 指定排名是否按升序進行，預設為 True。
pct: 指定是否傳回百分比排名，預設為 False。

範例

假設我們有一個 DataFrame mydf，包含三列資料：‘Name’、‘Salary’ 和 ‘City’。

import pandas as pd

mydf = pd.DataFrame({
    'Name': ['Saurabh', 'Rahul', 'Kunal'],
    'Salary': [200000.0, 100000.0, 130000.0],
    'City': ['Hyderabad', 'Bhopal', 'Mumbai']
})

現在，我們可以使用 rank() 方法對 ‘Salary’ 列進行排名：

print(mydf['Salary'].rank())

輸出：

0    2.0
1    1.0
2    3.0
Name: Salary, dtype: float64

在這個範例中，‘Salary’ 列的排名是根據升序進行的，即最低薪水的排名為 1.0。

如果我們想要根據降序進行排名，可以設定 ascending=False：

print(mydf['Salary'].rank(ascending=False))

輸出：

0    1.0
1    3.0
2    2.0
Name: Salary, dtype: float64

在這個範例中，‘Salary’ 列的排名是根據降序進行的，即最高薪水的排名為 1.0。

內容解密：

在上面的範例中，我們使用 rank() 方法對 ‘Salary’ 列進行排名。rank() 方法傳回一個新的 Series，其中包含了排名值。排名值是根據指定的軸和方法計算出來的。在這個範例中，我們使用了預設的方法，即 ‘average’，來處理相同的值。

圖表翻譯：

以下是使用 Mermaid 圖表語言對上述過程進行視覺化：

  graph LR
    A[DataFrame] -->|rank()|> B[排名 Series]
    B -->|ascending=True|> C[升序排名]
    B -->|ascending=False|> D[降序排名]
    C -->|output|> E[排名值]
    D -->|output|> F[排名值]

在這個圖表中，我們可以看到 rank() 方法如何根據指定的軸和方法對資料進行排名，並傳回一個新的 Series，其中包含了排名值。

資料分析與視覺化

在進行資料分析時，瞭解資料的分佈和趨勢是非常重要的。以下我們將探討如何使用Python和相關函式庫來分析和視覺化給定的資料。

資料描述

給定的資料似乎是三組不同的資料，每組代表不同的變數或時間點。第一組資料顯示了某些索引（0、3、5、7）對應的薪水（Salary）資料。第二組和第三組資料同樣給出了索引和對應的資料，但這些資料的意義未明確指定。

資料分析

首先，我們需要將這些資料轉換成適合分析的格式。假設這些資料是從某個資料函式庫或檔案中讀取出來的，我們可以使用Pandas函式庫來進行資料操作和分析。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 第一組資料
data1 = pd.Series([13000.0, 200000.0, 400000.0], index=[3, 5, 7])

# 第二組資料
data2 = pd.Series([2.0, 4.5, 3.0, 1.0, 4.5, 6.0], index=[0, 1, 2, 3, 5, 7])

# 第三組資料
data3 = pd.Series([5.0, 2.5, 4.0, 6.0], index=[0, 1, 2, 3])

資料視覺化

視覺化是瞭解資料分佈和趨勢的一種有效方法。以下我們將使用Matplotlib函式庫來繪製這些資料的圖表。

# 繪製第一組資料的圖表
plt.figure(figsize=(10,6))
plt.plot(data1.index, data1.values, marker='o')
plt.title('薪水資料')
plt.xlabel('索引')
plt.ylabel('薪水')
plt.grid(True)
plt.show()

# 繪製第二組資料的圖表
plt.figure(figsize=(10,6))
plt.plot(data2.index, data2.values, marker='o')
plt.title('第二組資料')
plt.xlabel('索引')
plt.ylabel('值')
plt.grid(True)
plt.show()

# 繪製第三組資料的圖表
plt.figure(figsize=(10,6))
plt.plot(data3.index, data3.values, marker='o')
plt.title('第三組資料')
plt.xlabel('索引')
plt.ylabel('值')
plt.grid(True)
plt.show()

圖表翻譯：

上述程式碼將生成三個圖表，每個圖表對應一組給定的資料。第一個圖表顯示了薪水資料隨著索引的變化趨勢。第二個和第三個圖表則分別顯示了第二組和第三組資料的分佈情況。透過這些圖表，我們可以直觀地觀察到資料的變化規律和趨勢，有助於進一步的資料分析和決策。

內容解密：

在這個例子中，我們使用了Pandas函式庫來建立Series物件，以便於操作和分析給定的資料。然後，我們使用Matplotlib函式庫來繪製這些資料的圖表。透過視覺化，我們可以更好地理解資料的分佈和趨勢，從而對資料有更深入的瞭解。這種方法在實際應用中非常有用，尤其是在需要快速瞭解大量資料的情況下。

薪資排名實作

在資料分析中，排名是常見的需求。以下示範如何使用Python的pandas函式庫來實作薪資排名。

步驟1：匯入必要函式庫並載入資料

首先，我們需要匯入pandas函式庫，並載入示範用的資料集。假設我們有一個名為rank_eg.csv的檔案，包含員工姓名、薪資和城市等欄位。

import pandas as pd

# 載入資料集
df = pd.read_csv('rank_eg.csv').dropna()

步驟2：顯示原始資料

載入資料後，我們可以先顯示原始資料，以瞭解其結構和內容。

print(df)
print('-'*50)

步驟3：新增薪資排名欄位

接下來，我們新增一個名為SalaryRank的欄位，用於存放薪資排名。這裡使用rank方法，以遞減順序（即最高薪資排名第一）進行排名。

df['SalaryRank'] = df['Salary'].rank(ascending=False)

步驟4：排序資料

新增排名欄位後，我們可以根據薪資排名對資料進行排序。

df.sort_values(by='SalaryRank', inplace=True)

步驟5：顯示排序後的資料

最後，顯示排序後的資料，以檢視薪資排名的結果。

print(df)

完整程式碼

以下是完整的程式碼：

import pandas as pd

# 載入資料集
df = pd.read_csv('rank_eg.csv').dropna()

# 顯示原始資料
print(df)
print('-'*50)

# 新增薪資排名欄位
df['SalaryRank'] = df['Salary'].rank(ascending=False)

# 排序資料
df.sort_values(by='SalaryRank', inplace=True)

# 顯示排序後的資料
print(df)

輸出結果

執行上述程式碼後，輸出的結果將顯示員工按照薪資排名的順序，最高薪資的員工排名第一。這樣就完成了薪資排名的實作。

資料過濾的重要性

資料過濾是資料分析中的一個重要步驟，它允許使用者根據特定的條件或標準從資料中提取特定的子集，從而使分析更加集中和有效。透過過濾資料，使用者可以：

提取符合特定條件的資料子集，以便進行更有針對性的分析。
清理資料，確保後續分析的準確性。
將資料分成不同的群組或類別，以便檢查不同的模式和趨勢。
預處理資料，處理缺失值，移除異常值。
根據特定的資料子集建立視覺化表示，以便更好地傳達有意義的見解。

使用Pandas進行資料過濾

Pandas是一個強大的Python函式庫，提供了高效的資料結構和資料分析工具。以下是使用Pandas進行資料過濾的示例：

import pandas as pd

# 載入資料
mydf = pd.read_csv('filter_eg.csv').dropna()

# 選擇特定列
print(mydf['City'])

在這個示例中，我們首先載入一個名為filter_eg.csv的CSV檔案，並移除任何含有缺失值的列。然後，我們選擇名為City的列，並將其印出。

布林遮罩（Boolean Masking）

布林遮罩是一種用於資料過濾的技術，涉及建立一個布林值陣列，用於選擇資料中的特定行或列。以下是使用布林遮罩進行資料過濾的示例：

import pandas as pd

# 載入資料
mydf = pd.read_csv('filter_eg.csv').dropna()

# 建立布林遮罩
mask = mydf['Salary'] > 200000

# 選擇符合條件的行
print(mydf[mask])

在這個示例中，我們建立了一個布林遮罩，選擇薪水大於200000的行。然後，我們使用這個遮罩來選擇符合條件的行，並將其印出。

內容解密：

上述程式碼使用Pandas函式庫載入一個名為filter_eg.csv的CSV檔案，並移除任何含有缺失值的列。然後，它建立了一個布林遮罩，選擇薪水大於200000的行。最後，它使用這個遮罩來選擇符合條件的行，並將其印出。

  flowchart TD
    A[載入資料] --> B[移除缺失值]
    B --> C[建立布林遮罩]
    C --> D[選擇符合條件的行]
    D --> E[印出結果]

圖表翻譯：

此圖表展示了使用Pandas進行資料過濾的流程。首先，載入資料並移除缺失值。然後，建立一個布林遮罩，用於選擇符合特定條件的行。最後，選擇符合條件的行，並將其印出。

條件篩選資料

使用布林遮罩進行資料篩選

當我們想要根據特定條件從 DataFrame 中篩選資料時，可以使用布林遮罩（Boolean Masking）。這種方法允許我們根據條件建立一個布林值的序列，然後使用這個序列來選擇符合條件的資料列。

篩選城市為 Durg 的資料

import pandas as pd

# 建立範例 DataFrame
data = {
    'City': ['Durg', 'Mumbai', 'Durg', 'Pune', 'Durg'],
    'Salary': [120000, 150000, 130000, 110000, 140000]
}
mydf = pd.DataFrame(data)

# 篩選城市為 Durg 的資料
print(mydf['City'] == 'Durg')
print(mydf[mydf['City'] == 'Durg'])

篩選薪水大於或等於 130000 的資料

# 篩選薪水大於或等於 130000 的資料
print(mydf[mydf['Salary'] >= 130000])

使用多個條件進行篩選

我們可以使用邏輯運運算元 &（且）和 |（或）來結合多個條件，從而實作更複雜的篩選。

篩選城市為 Durg 且薪水大於或等於 120000 的資料

# 定義條件
mycond1 = mydf['City'] == "Durg"
mycond2 = mydf['Salary'] >= 120000

# 篩選城市為 Durg 且薪水大於或等於 120000 的資料
print(mydf[mycond1 & mycond2])

篩選城市為 Durg 或薪水大於或等於 120000 的資料

# 篩選城市為 Durg 或薪水大於或等於 120000 的資料
print(mydf[mycond1 | mycond2])

資料分析與視覺化

在進行資料分析時，瞭解員工的薪水和所在地的分佈情況非常重要。以下是根據提供的資料進行分析和視覺化的步驟。

步驟1：資料匯總

首先，我們需要匯總員工的薪水和所在地的資料。這可以透過以下程式碼實作：

import pandas as pd

# 定義員薪水料
data = {
    'Employee Name': ['Rahul', 'Saurabh', 'Divya', 'Saurabh', 'Ankit', 'Saurabh'],
    'Salary': [100000.0, 200000.0, 140000.0, 150000.0, 110000.0, 200000.0],
    'City': ['Bhopal', 'Hyderabad', 'Durg', 'Raipur', 'Durg', 'Lara']
}

# 建立DataFrame
df = pd.DataFrame(data)

# 匯總薪水和所在地的資料
city_salary = df.groupby('City')['Salary'].sum()

print(city_salary)

步驟2：視覺化

接下來，我們可以使用Matplotlib函式庫來視覺化薪水和所在地的分佈情況。以下是實作視覺化的程式碼：

import matplotlib.pyplot as plt

# 視覺化薪水和所在地的分佈情況
city_salary.plot(kind='bar')
plt.title('薪水和所在地的分佈情況')
plt.xlabel('城市')
plt.ylabel('薪水總額')
plt.show()

步驟3：資料分析

透過視覺化，我們可以看到不同城市的薪水總額的情況。這可以幫助我們瞭解員工的薪水和所在地的分佈情況。

內容解密：

groupby函式用於匯總資料，根據’City’欄位進行分組，並計算’Salary’欄位的總額。
plot函式用於視覺化資料，建立一個條形圖來展示不同城市的薪水總額。
title、xlabel和ylabel函式用於設定圖表的標題、x軸標籤和y軸標籤。

圖表翻譯：

此圖示薪水和所在地的分佈情況，展示了不同城市的薪水總額。透過此圖表，我們可以快速瞭解員工的薪水和所在地的分佈情況，從而做出更好的決策。

從商業價值視角來看，有效運用Pandas的資料處理與分析能力，能大幅提升企業決策效率。透過多維比較分析，Pandas提供的sort_index()、rank()、布林遮罩等功能，相較於傳統資料處理方式，顯著降低了程式碼複雜度和開發時間。技術限制深析顯示，雖然Pandas功能強大，但處理極大規模資料集時，仍需考量記憶體使用效率，並可能需要搭配其他分散式運算框架。整合價值分析指出，Pandas與其他Python資料科學工具鏈的無縫整合，例如Matplotlib和NumPy，構成了完整且高效的資料分析生態系統。風險與機會並重，雖然學習Pandas需要一定的技術門檻，但掌握此工具將為企業帶來顯著的競爭優勢。玄貓認為，對於任何以資料驅動決策的企業而言，Pandas都是一項值得投資的核心技術。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。

Pandas資料處理技巧與視覺化應用

依索引值進行降序排序

內容解密：

圖表翻譯：

圖表翻譯：此圖示了對索引值進行降序排序的過程，從建立DataFrame開始，到對索引值進行降序排序，最後列印排序後的DataFrame。

資料整理與分析

資料結構

資料分析

資料排序

處理缺失值

未來分析方向

圖表翻譯：

排名系列值

使用 rank() 方法

範例

內容解密：

圖表翻譯：

資料分析與視覺化

資料描述

資料分析

資料視覺化

圖表翻譯：

內容解密：

薪資排名實作

步驟1：匯入必要函式庫並載入資料

步驟2：顯示原始資料

步驟3：新增薪資排名欄位

步驟4：排序資料

步驟5：顯示排序後的資料

完整程式碼

輸出結果

資料過濾的重要性

使用Pandas進行資料過濾

布林遮罩（Boolean Masking）

內容解密：

圖表翻譯：

條件篩選資料

使用布林遮罩進行資料篩選

篩選城市為 Durg 的資料

篩選薪水大於或等於 130000 的資料

使用多個條件進行篩選

篩選城市為 Durg 且薪水大於或等於 120000 的資料

篩選城市為 Durg 或薪水大於或等於 120000 的資料

資料分析與視覺化

步驟1：資料匯總

步驟2：視覺化

步驟3：資料分析

內容解密：

圖表翻譯：

玄貓

使用 `rank()` 方法