Pandas資料索引操作與應用技巧

在資料處理流程中，Pandas 的索引操作扮演著關鍵角色，影響著資料存取速度和程式碼簡潔性。設定適當的索引能大幅提升查詢效率，而活用 loc 索引器則能精準選取所需資料，避免繁瑣的迭代操作。理解 reset_index 方法也能在需要時靈活還原索引至預設狀態。這些技巧共同構成了 Pandas 資料處理的基本，熟練掌握能有效提升程式碼品質與執行效率，尤其在處理大型資料集時更能展現其優勢。

資料索引設定

在資料分析中，設定適當的索引對於資料操作和查詢非常重要。以下是設定資料索引的步驟和解釋：

資料索引設定方法

import pandas as pd

# 建立一個範例DataFrame
data = {
    'Employee Name': ['Vikas', 'Saurabh', 'Vikas', 'Mintoo', 'Vikas', None],
    'Salary': [200000.0, 400000.0, 210000.0, 110000.0, None, 130000.0],
    'City': ['Lara', None, None, 'Jhansi', 'Anand', 'Aligarh']
}
mydf = pd.DataFrame(data)

print(mydf)
print('-'*50)

# 將'Employee Name'設為索引
mydf.set_index(keys='Employee Name', inplace=True)

print(mydf)

內容解密：

mydf.set_index(keys='Employee Name', inplace=True)：這行程式碼將’Employee Name’欄位設為索引。inplace=True表示直接修改原來的DataFrame，不傳回新的DataFrame。
print(mydf)：列印設定索引後的DataFrame，可以看到原來的’Employee Name’欄位現在變成了索引。

資料索引設定的好處

設定適當的索引可以提高資料查詢和操作的效率，特別是在處理大型資料集時。同時，設定索引也可以幫助我們更好地理解和分析資料。

圖表翻譯：

  flowchart TD
    A[原始資料] --> B[設定索引]
    B --> C[提高查詢效率]
    C --> D[更好地理解資料]

圖表說明：

A[原始資料]：代表原始的資料集。
B[設定索引]：代表設定索引的過程。
C[提高查詢效率]：代表設定索引後可以提高查詢效率。
D[更好地理解資料]：代表設定索引後可以更好地理解和分析資料。

資料重建與索引重設

在資料處理中，經常需要對資料進行重建和索引重設，以便更好地管理和分析資料。以下是使用Python的pandas函式庫進行資料重建和索引重設的示例。

資料重建

首先，我們需要建立一個資料框架（DataFrame），如下所示：

import pandas as pd

data = {
    'Employee Name': ['Vikas', 'Saurabh', 'Vikas', 'Mintoo', 'Vikas', None],
    'Salary': [200000.0, 400000.0, 210000.0, 110000.0, None, 130000.0],
    'City': ['Lara', None, None, 'Jhansi', 'Anand', 'Aligarh']
}

df = pd.DataFrame(data)

索引重設

接下來，我們可以使用reset_index方法重設索引。這個方法可以將現有的索引重設為預設的數字索引，並且可以選擇是否刪除舊的索引。

# 重設索引，不刪除舊的索引
df_reset = df.reset_index(drop=False)

# 重設索引，刪除舊的索引
df_reset_drop = df.reset_index(drop=True)

示例程式碼

以下是完整的示例程式碼：

import pandas as pd

data = {
    'Employee Name': ['Vikas', 'Saurabh', 'Vikas', 'Mintoo', 'Vikas', None],
    'Salary': [200000.0, 400000.0, 210000.0, 110000.0, None, 130000.0],
    'City': ['Lara', None, None, 'Jhansi', 'Anand', 'Aligarh']
}

df = pd.DataFrame(data)

print("原始資料：")
print(df)

df_reset = df.reset_index(drop=False)
print("\n重設索引，不刪除舊的索引：")
print(df_reset)

df_reset_drop = df.reset_index(drop=True)
print("\n重設索引，刪除舊的索引：")
print(df_reset_drop)

結果

執行上述程式碼後，將得到以下結果：

原始資料：
  Employee Name   Salary      City
0         Vikas  200000.0      Lara
1      Saurabh  400000.0       NaN
2         Vikas  210000.0       NaN
3        Mintoo  110000.0    Jhansi
4         Vikas       NaN     Anand
5          NaN  130000.0  Aligarh

重設索引，不刪除舊的索引：
   index Employee Name   Salary      City
0      0         Vikas  200000.0      Lara
1      1      Saurabh  400000.0       NaN
2      2         Vikas  210000.0       NaN
3      3        Mintoo  110000.0    Jhansi
4      4         Vikas       NaN     Anand
5      5          NaN  130000.0  Aligarh

重設索引，刪除舊的索引：
   Employee Name   Salary      City
0         Vikas  200000.0      Lara
1      Saurabh  400000.0       NaN
2         Vikas  210000.0       NaN
3        Mintoo  110000.0    Jhansi
4         Vikas       NaN     Anand
5          NaN  130000.0  Aligarh

內容解密：

在上述程式碼中，我們使用reset_index方法重設索引。這個方法可以將現有的索引重設為預設的數字索引，並且可以選擇是否刪除舊的索引。如果drop=False，則不刪除舊的索引；如果drop=True，則刪除舊的索引。

使用Pandas的loc[]索引器進行資料選擇

Pandas的loc[]索引器是一種強大的工具，允許使用者根據標籤（label）選擇資料列和欄位，而不是根據其在資料框架中的位置。這種方法可以讓使用者更容易地選擇特定的資料列和欄位，尤其是在資料框架中有明確的索引標籤時。

基本語法

使用loc[]索引器選擇資料列的基本語法如下：

mydf.loc[index_label]

其中，mydf是資料框架的名稱，index_label是要選擇的索引標籤。如果選擇的索引標籤存在於資料框架中，則會傳回一個Series物件，如果選擇多個索引標籤，則會傳回一個資料框架物件。

範例

假設我們有一個名為Salary City的資料框架，其索引標籤為員工姓名，內容如下：

      Salary      City
0  200000.0      Lara
1  400000.0      NaN
2  210000.0      NaN
3  110000.0    Jhansi
4      NaN     Anand
5  130000.0   Aligarh

如果我們想要選擇索引標籤為Lara的資料列，可以使用以下程式碼：

import pandas as pd

# 載入資料框架
df = pd.read_csv('loc_eg.csv', index_col='myname')

# 選擇索引標籤為Lara的資料列
row = df.loc['Lara']

print(row)

這將傳回一個Series物件，包含索引標籤為Lara的資料列。

多個索引標籤的選擇

如果我們想要選擇多個索引標籤，可以傳遞一個列表或切片給loc[]索引器。例如：

# 選擇索引標籤為Lara和Jhansi的資料列
rows = df.loc[['Lara', 'Jhansi']]

print(rows)

這將傳回一個資料框架物件，包含索引標籤為Lara和Jhansi的資料列。

錯誤處理

如果指定的索引標籤不存在於資料框架中，loc[]索引器將丟擲一個KeyError異常。例如：

# 選擇索引標籤為不存在的資料列
try:
    row = df.loc['不存在']
except KeyError as e:
    print(e)

這將丟擲一個KeyError異常，指出索引標籤不存在於資料框架中。

內容解密：

在上面的範例中，我們使用loc[]索引器選擇了資料框架中的特定資料列。這種方法可以讓使用者更容易地選擇特定的資料列和欄位，尤其是在資料框架中有明確的索引標籤時。然而，需要注意的是，如果指定的索引標籤不存在於資料框架中，將丟擲一個KeyError異常。因此，需要進行錯誤處理以避免這種情況。

圖表翻譯：

以下是使用Mermaid語法繪製的流程圖，展示了使用loc[]索引器選擇資料列的過程：

  flowchart TD
    A[載入資料框架] --> B[選擇索引標籤]
    B --> C[傳回Series物件或資料框架物件]
    C --> D[錯誤處理]
    D --> E[丟擲KeyError異常]

這個流程圖展示了使用loc[]索引器選擇資料列的過程，包括載入資料框架、選擇索引標籤、傳回Series物件或資料框架物件、錯誤處理和丟擲KeyError異常。

資料索引與存取

在 Pandas 中，.loc[] 是用於根據標籤存取資料的方法。它允許你透過行索引或列索引來存取資料。

單行資料存取

當你使用 .loc[] 來存取單行資料時，它會傳回一個 Series 物件。例如：

print(mypd_dataframe.loc['Divya'])

這會輸出：

myname      Divya
myage         34
mycountry    India
Name: Divya, dtype: object

多行資料存取

如果你使用 .loc[] 來存取多行資料時，它會傳回一個 DataFrame 物件。例如：

print(mypd_dataframe.loc['Saurabh'])

這會輸出：

     myname  myage mycountry
Saurabh  Saurabh     35   Finland
Saurabh  Saurabh     40    Italy

錯誤處理

如果你使用 .loc[] 來存取不存在的索引時，它會丟擲一個 KeyError。例如：

print(mypd_dataframe.loc['Johnny'])

這會丟擲一個 KeyError 因為沒有名為 ‘Johnny’ 的索引。

內容解密：

在這個例子中，我們使用 .loc[] 來存取資料。當我們存取單行資料時，它會傳回一個 Series 物件。當我們存取多行資料時，它會傳回一個 DataFrame 物件。如果我們存取不存在的索引時，它會丟擲一個 KeyError。

圖表翻譯：

  graph LR
    A[.loc[]] --> B[Series]
    A --> C[DataFrame]
    A --> D[KeyError]
    B --> E[單行資料]
    C --> F[多行資料]
    D --> G[錯誤處理]

在這個圖表中，我們可以看到 .loc[] 的工作流程。當我們使用 .loc[] 來存取資料時，它會根據索引的型別傳回不同的物件。如果索引存在且只有一行資料時，它會傳回一個 Series 物件。如果索引存在且有多行資料時，它會傳回一個 DataFrame 物件。如果索引不存在時，它會丟擲一個 KeyError。

使用 Pandas 的 loc 函式進行資料選取

在 Pandas 中，loc 函式是一種強大的工具，允許您根據標籤選取資料。它提供了一種更為直觀和安全的方式來存取資料，尤其是在您需要根據索引標籤進行選取時。

基本使用

首先，您需要匯入 Pandas 函式庫並建立一個 DataFrame。以下是示範如何使用 loc 函式選取資料的範例：

import pandas as pd

# 建立一個簡單的 DataFrame
data = {
    'myname': ['Saurabh', 'Mintoo', 'Priyanka', 'Divya'],
    'myage': [35, 40, 45, 50],
    'mycountry': ['Finland', 'Italy', 'France', 'India']
}
df = pd.DataFrame(data)

# 設定 'myname' 欄位為索引
df.set_index('myname', inplace=True)

print(df)

使用 loc 函式進行選取

現在，您可以使用 loc 函式根據索引標籤選取資料。以下示範如何選取從 ‘Mintoo’ 到 ‘Priyanka’ 的資料：

print(df.loc['Mintoo':'Priyanka'])

使用步長進行選取

您也可以指定步長來選取資料。例如，以下示範如何以 2 為步長選取從 ‘Mintoo’ 到 ‘Priyanka’ 的資料：

print(df.loc['Mintoo':'Priyanka':2])

注意事項

當使用 loc 函式時，開始和結束索引都是包含在內的。
如果您嘗試存取不存在的索引標籤，Pandas 會丟擲 KeyError。
loc 函式提供了一種安全的方式來存取資料，因為它不會因為索引錯誤而導致資料遺失或錯誤。

實際應用

在實際應用中，您可能需要根據特定的條件或規則選取資料。loc 函式提供了一種靈活的方式來實作這些需求。例如，您可以根據多個條件結合選取資料：

print(df.loc[(df['myage'] > 40) & (df.index >= 'Mintoo')])

這樣，您就可以根據不同的條件和規則進行資料選取和分析。

資料索引與選取

在 Pandas 中，loc 是一個強大的工具，允許您根據標籤選取資料。它不僅可以選取單行或單列資料，也可以選取資料的子集。

選取資料範圍

當您想要選取某個範圍的資料時，可以使用 loc 方法並指定開始和結束的索引標籤。例如，若要選取從 ‘Divya’ 到 ‘Priyanka’ 的資料，可以這樣做：

print(mypd_dataframe.loc['Divya':'Priyanka'])

這將會輸出從 ‘Divya’ 到 ‘Priyanka’ 的所有資料。

內容解密：

loc 方法允許您根據索引標籤選取資料。
當您指定開始和結束的索引標籤時，loc 方法會選取從開始到結束的所有資料（含開始和結束）。
如果您只指定開始索引標籤，則 loc 方法會選取從開始到資料結尾的所有資料。
如果您只指定結束索引標籤，則 loc 方法會選取從資料開始到結束的所有資料。

選取所有資料

如果您想要選取所有資料，可以使用 loc 方法並指定 : 作為開始和結束索引標籤。例如：

print(mypd_dataframe.loc[:])

這將會輸出所有的資料。

圖表翻譯：

  flowchart TD
    A[開始] --> B[選取資料]
    B --> C[使用 loc 方法]
    C --> D[指定開始和結束索引標籤]
    D --> E[選取資料範圍]
    E --> F[輸出選取的資料]

圖表翻譯：此圖表展示了使用 loc 方法選取資料的流程。首先，開始選取資料，然後使用 loc 方法，指定開始和結束索引標籤，最後輸出選取的資料。

個人簡介列表

在這個列表中，我們可以看到多個人的基本資訊，包括姓名、年齡和國籍。以下是列表的詳細內容：

個人簡介

Saurabh：來自義大利，年齡40歲。
Mintoo：來自澳大利亞，年齡37歲。
Nilesh：來自英國，年齡43歲。
Priyanka：來自美國，年齡30歲。
Divya：來自印度，年齡34歲。

個人分佈圖

  graph LR
    Saurabh[義大利, 40] -->|居住於|> 義大利
    Mintoo[澳大利亞, 37] -->|居住於|> 澳大利亞
    Nilesh[英國, 43] -->|居住於|> 英國
    Priyanka[美國, 30] -->|居住於|> 美國
    Divya[印度, 34] -->|居住於|> 印度

圖表翻譯：

此圖表展示了每個人的國籍分佈情況，透過箭頭連線姓名和對應的國家，直觀地呈現了個人與其所屬國家的關係。

年齡統計

根據列表中的年齡資訊，我們可以進行一些基本的統計：

最大年齡：43歲（Nilesh）
最小年齡：30歲（Priyanka）
平均年齡：（40+37+43+30+34）/ 5 = 36.8歲

年齡分佈圖

  graph LR
    A[30] -->|年齡|> Priyanka
    B[34] -->|年齡|> Divya
    C[37] -->|年齡|> Mintoo
    D[40] -->|年齡|> Saurabh
    E[43] -->|年齡|> Nilesh

圖表翻譯：

此圖表展示了每個人的年齡分佈情況，透過連線年齡數值和對應的人名，清晰地呈現了年齡的排序和分佈。

國籍統計

列表中提到的國籍包括義大利、澳大利亞、英國、美國和印度。每個國籍下都有一位或多位個人。

國籍分佈圖

  graph LR
    義大利 -->|國籍|> Saurabh
    澳大利亞 -->|國籍|> Mintoo
    英國 -->|國籍|> Nilesh
    美國 -->|國籍|> Priyanka
    印度 -->|國籍|> Divya

圖表翻譯：

此圖表展示了每個人的國籍資訊，透過箭頭連線國籍和對應的人名，直觀地呈現了個人與其所屬國籍的關係。

這些圖表和統計資料共同提供了一個全面的個人簡介列表，涵蓋了姓名、年齡和國籍等多個方面。

從使用者經驗視角來看，有效管理和存取資料是提升資料分析效率的關鍵。本文深入探討了Pandas中設定、重設和使用索引的技巧，涵蓋set_index、reset_index和loc等核心方法，並佐以清晰的程式碼範例和圖表說明。分析顯示，loc索引器在根據標籤選取資料方面表現出色，尤其適用於複雜的資料篩選和切片操作。然而，需要注意KeyError異常的處理，以避免程式中斷。技術限制方面，loc索引器主要根據標籤操作，對於位置索引的處理能力相對較弱。對於需要根據位置進行資料存取的場景，則需考慮使用iloc索引器。展望未來，Pandas索引機制將持續最佳化，以更好地支援更複雜的資料結構和操作。對於追求高效能的資料分析工作者，深入理解並靈活運用這些索引技巧至關重要。玄貓認為，熟練掌握Pandas的索引操作，將顯著提升資料處理效率，是資料科學家和分析師的必備技能。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。