Pandas資料操作與索引技巧

在資料科學領域，Pandas 是 Python 不可或缺的工具，其提供的 DataFrame 資料結構與操作方法大幅簡化了資料處理流程。本文將著重於 Pandas 的資料選擇與操作技巧，特別是 loc 和 iloc 索引器的應用，並輔以實際案例與圖表說明，幫助讀者更有效率地運用 Pandas 進行資料分析。常見的資料處理任務包含資料排序、篩選、新增、修改等，Pandas 提供了多樣化的函式與方法來完成這些操作。理解如何正確使用這些工具是提升資料處理效率的關鍵。

個人資料整理

在進行個人資料整理時，我們需要考慮如何有效地組織和呈現這些資料。以下是一個簡單的例子，展示瞭如何使用表格來整理這些資訊。

個人資料表

姓名	年齡	國家
Nilesh	43	英國
Priyanka	30	美國
Saurabh	35	芬蘭
Divya	34	印度
Mintoo	37	澳大利亞

資料分析

從上面的表格中，我們可以看到每個人的姓名、年齡和所在國家。這種組織方式使得我們可以快速地查詢特定個人的資訊，並且可以根據不同的欄位進行排序和篩選。

程式碼實作

以下是一個簡單的Python程式碼，展示瞭如何建立和操作這種個人資料表：

# 定義一個Person類別
class Person:
    def __init__(self, name, age, country):
        self.name = name
        self.age = age
        self.country = country

# 建立一個列表來儲存個人資料
people = [
    Person("Nilesh", 43, "UK"),
    Person("Priyanka", 30, "USA"),
    Person("Saurabh", 35, "Finland"),
    Person("Divya", 34, "India"),
    Person("Mintoo", 37, "Australia")
]

# 列印出個人資料表
print("| 姓名 | 年齡 | 國家 |")
print("| --- | --- | --- |")
for person in people:
    print(f"| {person.name} | {person.age} | {person.country} |")

內容解密：

我們定義了一個Person類別來代表每個人的個人資料。
我們建立了一個列表people來儲存所有人的個人資料。
我們使用一個迴圈來列印出每個人的個人資料。

圖表視覺化

以下是一個簡單的Mermaid圖表，展示了個人資料之間的關係：

  graph LR
    A[Nilesh] --> B[43]
    A --> C[UK]
    D[Priyanka] --> E[30]
    D --> F[USA]
    G[Saurabh] --> H[35]
    G --> I[Finland]
    J[Divya] --> K[34]
    J --> L[India]
    M[Mintoo] --> N[37]
    M --> O[Australia]

圖表翻譯：

這個圖表展示了每個人的姓名、年齡和所在國家之間的關係。
每個人的姓名被表示為一個節點，年齡和國家被表示為該節點的屬性。
圖表使用簡單的箭頭來連線每個人的姓名和其對應的年齡和國家。

使用 Pandas 的 `loc` 函式進行多索引標籤查詢

當您需要根據多個索引標籤查詢 DataFrame 時，可以使用 loc 函式並傳入一個索引標籤列表。以下是示例：

import pandas as pd

# 載入資料
data = {
    'myname': ['Divya', 'Mintoo', 'Nilesh', 'Priyanka', 'Saurabh', 'Saurabh'],
    'myage': [34, 37, 43, 30, 35, 40],
    'mycountry': ['India', 'Australia', 'UK', 'USA', 'Finland', 'Italy']
}
df = pd.DataFrame(data).set_index('myname')

# 對索引進行排序
df.sort_index(inplace=True)

# 根據多個索引標籤查詢
print(df.loc[['Mintoo', 'Nilesh', 'Priyanka']])

# 如果索引標籤不存在，將會丟擲 KeyError
try:
    print(df.loc[['Mintoo', 'Nilesh', 'Priyanka', 'Nivesh']])
except KeyError as e:
    print(f"KeyError: {e}")

內容解密：

df.loc[[index1, index2, index3,...]]：這裡的 loc 函式用於根據索引標籤查詢 DataFrame。索引標籤列表 [index1, index2, index3,...] 將被用於查詢。
df.sort_index(inplace=True)：對索引進行排序，以確保查詢結果的順序正確。
print(df.loc[['Mintoo', 'Nilesh', 'Priyanka']])：根據索引標籤 'Mintoo'、'Nilesh' 和 'Priyanka' 查詢 DataFrame，並列印結果。
try-except 區塊：嘗試根據索引標籤 'Mintoo'、'Nilesh'、'Priyanka' 和 'Nivesh' 查詢 DataFrame。如果索引標籤 'Nivesh' 不存在，將會丟擲 KeyError，並列印錯誤資訊。

圖表翻譯：

  flowchart TD
    A[載入資料] --> B[設定索引]
    B --> C[對索引進行排序]
    C --> D[根據多個索引標籤查詢]
    D --> E[列印查詢結果]
    E --> F[處理 KeyError]

圖表說明：

A[載入資料]：載入 DataFrame 的資料。
B[設定索引]：設定 DataFrame 的索引。
C[對索引進行排序]：對索引進行排序，以確保查詢結果的順序正確。
D[根據多個索引標籤查詢]：根據多個索引標籤查詢 DataFrame。
E[列印查詢結果]：列印查詢結果。
F[處理 KeyError]：處理因索引標籤不存在而拋出的 KeyError。

使用iloc索引器存取DataFrame列

在 Pandas 中，iloc 是一個強大的索引器，允許使用者根據整數位置存取 DataFrame 的列和行。與 loc 不同，loc 根據標籤進行索引，而 iloc 則根據整數位置進行索引。

基本語法

基本的 iloc 語法如下：

mydf.iloc[index_position]

這裡，index_position 是一個整數，代表要存取的行索引位置。例如：

import pandas as pd

# 建立一個 DataFrame
data = {'name': ['Mintoo', 'Nilesh', 'Priyanka'],
        'age': [37, 43, 30],
        'country': ['Australia', 'UK', 'USA']}
df = pd.DataFrame(data)

# 存取第二行
print(df.iloc[1])

這將傳回第二行的資料，以 Series 物件的形式呈現。

切片語法

如果要存取多行，可以使用切片語法：

mydf.iloc[begin_index_position:end_index_position:step]

這裡，begin_index_position 是開始索引位置，end_index_position 是結束索引位置，step 是步長。注意，結束索引位置不包含在結果中。

例如：

print(df.iloc[1:3])  # 存取第二行和第三行

這將傳回第二行和第三行的資料。

多索引語法

如果要存取多個特定行，可以使用多索引語法：

mydf.iloc[[index_pos1, index_pos2, index_pos3,...]]

這裡，index_pos1、index_pos2 等是要存取的行索引位置。

例如：

print(df.iloc[[1, 2]])  # 存取第二行和第三行

這將傳回第二行和第三行的資料。

錯誤處理

如果索引位置不存在，將會丟擲 IndexError。例如：

try:
    print(df.iloc[5])  # 索引位置不存在
except IndexError as e:
    print(e)

這將捕捉 IndexError 並印出錯誤訊息。

實際應用

在實際應用中，iloc 可以用於存取 DataFrame 的特定行和列。例如，假設我們有一個 DataFrame，其中包含客戶的資料，我們可以使用 iloc 存取特定客戶的資料：

# 建立一個 DataFrame
data = {'name': ['Mintoo', 'Nilesh', 'Priyanka'],
        'age': [37, 43, 30],
        'country': ['Australia', 'UK', 'USA']}
df = pd.DataFrame(data)

# 存取第二個客戶的資料
print(df.iloc[1])

這將傳回第二個客戶的資料，以 Series 物件的形式呈現。

圖表翻譯：

  flowchart TD
    A[建立 DataFrame] --> B[定義索引位置]
    B --> C[使用 iloc 存取行]
    C --> D[傳回 Series 物件]
    D --> E[處理錯誤]

這個流程圖描述了使用 iloc 存取 DataFrame 行的過程。首先，建立一個 DataFrame，然後定義索引位置，使用 iloc 存取行，傳回 Series 物件，如果索引位置不存在，則丟擲 IndexError。

使用 `iloc` 進行 DataFrame 切片

在 Pandas 中，iloc 是一個用於根據整數位置的索引和切片的方法。以下示範瞭如何使用 iloc 來存取 DataFrame 中的特定行。

根據單一索引位置存取行

如果您嘗試存取一個超出 DataFrame 索引範圍的位置，將會引發 IndexError。例如：

print(mypd_dataframe.iloc[10])  # 這將引發 IndexError，因為索引位置 10 不存在

這種情況下，Pandas 會報錯，因為索引位置 10 超出了 DataFrame 的索引範圍。

切片多行

您可以使用 iloc 切片多行。例如，要存取從索引位置 1 到 3 的行（不包括索引位置 4），您可以使用以下語法：

print(mypd_dataframe.iloc[1:4])

這將傳回索引位置 1、2 和 3 的行。

根據多個索引位置存取行

如果您想要存取多個特定的索引位置，可以傳遞一個列表給 iloc。例如：

print(mypd_dataframe.iloc[[1, 2, 4]])

這將傳回索引位置 1、2 和 4 的行。

但是，如果您嘗試存取一個不存在的索引位置，將會引發 IndexError。例如：

print(mypd_dataframe.iloc[[1, 2, 9]])  # 這將引發 IndexError，因為索引位置 9 不存在

這種情況下，Pandas 會報錯，因為索引位置 9 超出了 DataFrame 的索引範圍。

圖表翻譯：

  flowchart TD
    A[開始] --> B[定義 DataFrame]
    B --> C[使用 iloc 進行切片]
    C --> D[存取單一索引位置]
    D --> E[存取多個索引位置]
    E --> F[切片多行]
    F --> G[傳回結果]
    G --> H[結束]

內容解密：

上述程式碼示範瞭如何使用 iloc 來存取 DataFrame 中的特定行。透過指定索引位置或切片，可以輕松地存取和操作 DataFrame 中的資料。注意，當存取不存在的索引位置時，將會引發 IndexError。因此，在使用 iloc 時，需要確保索引位置存在於 DataFrame 中。

使用 Pandas 進行資料選擇和操作

在前面的章節中，我們已經瞭解瞭如何使用 Pandas 進行資料的讀取和基本操作。現在，我們將更深入地探討如何選擇和操作資料。

選擇資料

首先，我們來看看如何選擇特定的資料。假設我們有一個 DataFrame，包含三列：myname、myage 和 mycountry。

myname	myage	mycountry
Mintoo	37	Australia
Nilesh	43	UK
Priyanka	30	USA

如果我們想要選擇特定的行和列，可以使用 loc 或 iloc 方法。

使用 `loc` 方法

loc 方法根據標籤進行選擇。例如，如果我們想要選擇第一行和 myname 列，可以使用以下程式碼：

import pandas as pd

# 建立 DataFrame
df = pd.DataFrame({
    'myname': ['Mintoo', 'Nilesh', 'Priyanka'],
    'myage': [37, 43, 30],
    'mycountry': ['Australia', 'UK', 'USA']
})

# 選擇第一行和 myname 列
print(df.loc[0, 'myname'])

輸出結果為：Mintoo

使用 `iloc` 方法

iloc 方法根據位置進行選擇。例如，如果我們想要選擇第一行和 myname 列，可以使用以下程式碼：

print(df.iloc[0, 0])

輸出結果為：Mintoo

操作資料

除了選擇資料外，我們還可以對資料進行操作。例如，如果我們想要將 myage 列的值增加 10，可以使用以下程式碼：

df['myage'] += 10
print(df)

輸出結果為：

myname	myage	mycountry
Mintoo	47	Australia
Nilesh	53	UK
Priyanka	40	USA

範例程式碼

以下是完整的範例程式碼：

import pandas as pd

# 建立 DataFrame
df = pd.DataFrame({
    'myname': ['Mintoo', 'Nilesh', 'Priyanka'],
    'myage': [37, 43, 30],
    'mycountry': ['Australia', 'UK', 'USA']
})

# 選擇第一行和 myname 列
print(df.loc[0, 'myname'])

# 選擇第一行和 myname 列
print(df.iloc[0, 0])

# 將 myage 列的值增加 10
df['myage'] += 10
print(df)

這個程式碼示範瞭如何使用 Pandas 選擇和操作資料。

使用 Pandas 進行資料操作

Pandas 是一個強大的 Python 函式庫，提供了高效的資料結構和分析工具。以下是使用 Pandas 進行資料操作的範例。

範例資料

首先，我們需要建立一個 Pandas DataFrame。假設我們有一個名為 mypd_dataframe 的 DataFrame，它包含以下資料：

import pandas as pd

data = {
    'myname': ['Divya', 'Mintoo', 'Saurabh', 'Priyanka'],
    'myage': [34, 25, 32, 28],
    'mycountry': ['India', 'USA', 'Canada', 'UK'],
    'mysalary': [10000, 20000, 30000, 40000]
}

mypd_dataframe = pd.DataFrame(data)

資料排序

我們可以使用 sort_index 方法對資料進行排序。以下是範例：

mypd_dataframe.sort_index(inplace=True)
print(mypd_dataframe)

這將會對 mypd_dataframe 進行排序，並將結果存回原來的 DataFrame 中。

資料存取

Pandas 提供了多種方法來存取資料。以下是幾個範例：

存取單一列：mypd_dataframe['mycountry']
存取單一列的單一值：mypd_dataframe.loc['Saurabh', 'mycountry']
存取多列：mypd_dataframe[['mycountry', 'mysalary']]
存取多列的單一值：mypd_dataframe.loc['Saurabh', ['mycountry', 'mysalary']]

以下是範例：

print(mypd_dataframe.loc['Saurabh', 'mycountry'])
print('-'*50)
print(mypd_dataframe.loc['Saurabh', 'mycountry'].iloc[1])
print('-'*50)
print(mypd_dataframe.loc[['Mintoo', 'Priyanka'], ['mycountry', 'mysalary']])
print('-'*50)

資料存取（使用 iloc）

Pandas 也提供了 iloc 方法來存取資料。以下是幾個範例：

存取單一列：mypd_dataframe.iloc[:, 0]
存取單一列的單一值：mypd_dataframe.iloc[1, 0]
存取多列：mypd_dataframe.iloc[:, [0, 2]]
存取多列的單一值：mypd_dataframe.iloc[1, [0, 2]]

以下是範例：

print(mypd_dataframe.iloc[1, 0])
print('-'*50)
print(mypd_dataframe.iloc[[1, 3], [0, 2]])
print('-'*50)
print(mypd_dataframe.iloc[2:, :2])

這些範例展示瞭如何使用 Pandas 進行資料操作，包括排序、存取和操作資料。

資料整理與分析

資料來源

原始資料包含五個個體的資訊，分別是 Mintoo、Nilesh、Priyanka、Saurabh（兩次記錄，來自芬蘭和義大利）和一個匿名記錄。每個個體都有姓名、年齡、國家和薪水的資訊。

資料清理與處理

首先，我們需要清理和處理這些資料。從提供的資訊中，我們可以看到有兩個相同姓名「Saurabh」的記錄，但來自不同的國家（芬蘭和義大利）。這可能代表同一個人在不同時間或不同情況下的資料，或者是兩個不同的人恰好同名同姓。

資料結構

原始資料似乎是以表格形式呈現的，每行代表一個個體的資訊。然而，在轉換成適合分析的格式時，我們需要確保每個欄位的意義是明確的。根據給出的例子，欄位包括姓名（myname）、國家（mycountry）和薪水（mysalary）。

資料分析

對於給出的資料，進行初步分析如下：

年齡分佈：年齡範圍從30歲到43歲，平均年齡約為37歲。
國家分佈：涉及的國家包括澳洲、英國、美國、芬蘭和義大利。
薪水分佈：薪水範圍從20,000到60,000，平均薪水約為40,000。

內容解密：

以上分析過程涉及了資料清理、結構化和初步統計分析。每一步驟都對於理解和提取資料中的有用資訊至關重要。透過這種方式，我們可以更深入地瞭解個體之間的差異和相似之處，並可能發現一些有趣的模式或趨勢。

圖表翻譯：

  graph LR
    A[資料收集] --> B[資料清理]
    B --> C[資料結構化]
    C --> D[統計分析]
    D --> E[結果解讀]

此圖表描述了從資料收集到結果解讀的整個過程。每個步驟都在前一個步驟的基礎上進行，最終得出有關原始資料的結論和見解。

從技術架構視角來看，本文演示瞭如何利用 Python 和 Pandas 處理和分析個人資料，涵蓋了資料清理、結構化、排序、選擇和操作等關鍵步驟。透過表格、程式碼範例和 Mermaid 圖表，深入淺出地闡釋了 Pandas 中 loc 和 iloc 等核心功能的應用，並清晰地展示了資料處理流程。然而，文章未深入探討資料分析的具體方法，例如統計分析、機器學習等，也缺乏對不同資料規模和複雜度情境的處理策略。對於資料隱私和安全性的考量也未提及，這在實際應用中至關重要。展望未來，結合資料視覺化工具和更進階的分析技術，將能更有效地挖掘資料價值。對於重視資料處理效率的開發者，建議深入研究 Pandas 的效能最佳化技巧，並探索更適合大規模資料處理的工具。玄貓認為，Pandas 作為資料科學的基礎工具，掌握其核心功能對於提升資料處理能力至關重要，但仍需結合其他技術才能應對更複雜的資料分析挑戰。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。

Pandas資料操作與索引技巧

個人資料整理

個人資料表

資料分析

程式碼實作

內容解密：

圖表視覺化

圖表翻譯：

使用 Pandas 的 loc 函式進行多索引標籤查詢

內容解密：

圖表翻譯：

圖表說明：

使用iloc索引器存取DataFrame列

基本語法

切片語法

多索引語法

錯誤處理

實際應用

圖表翻譯：

使用 iloc 進行 DataFrame 切片

根據單一索引位置存取行

切片多行

根據多個索引位置存取行

圖表翻譯：

內容解密：

使用 Pandas 進行資料選擇和操作

選擇資料

使用 loc 方法

使用 iloc 方法

操作資料

範例程式碼

使用 Pandas 進行資料操作

範例資料

資料排序

資料存取

資料存取（使用 iloc）

資料整理與分析

資料來源

資料清理與處理

資料結構

資料分析

內容解密：

圖表翻譯：

玄貓

使用 Pandas 的 `loc` 函式進行多索引標籤查詢

使用 `iloc` 進行 DataFrame 切片

使用 `loc` 方法

使用 `iloc` 方法