Python NumPy 與 Pandas 效能最佳化技巧

在 Python 開發中，效能最佳化是提升程式碼執行效率的關鍵。尤其在處理大量資料和科學計算時，NumPy 和 Pandas 等函式函式庫的效能最佳化技巧更顯重要。本文將介紹如何使用 NumPy、numexpr 和 Pandas 進行效能最佳化，並提供一些實用的技巧。首先，我們會使用 IPython 的 %timeit 進行 benchmark 測試，比較不同方法的執行時間，例如 Python 原生方法和 NumPy 方法的差異。接著，將深入探討如何使用 NumPy 和 numexpr 計算距離矩陣，並比較兩者的效能差異。此外，還會介紹 Pandas 的基本資料結構，如 Series 和 DataFrame，以及如何使用這些資料結構進行資料操作和分析。最後，將探討如何透過排序索引來最佳化 Pandas 的查詢效能，尤其是在處理非唯一索引的情況下。

Benchmark 測試

我們可以使用 IPython 來進行 benchmark 測試。首先，讓我們定義一個 benchmark 函式，該函式可以根據指定的方法（‘python’ 或 ’numpy’）來執行模擬。

import numpy as np
from simul import Particle, ParticleSimulator

def benchmark(npart=100, method='python'):
    particles = [Particle(np.random.uniform(-1.0, 1.0),
                           np.random.uniform(-1.0, 1.0),
                           np.random.uniform(-1.0, 1.0))
                 for i in range(npart)]
    simulator = ParticleSimulator(particles)
    
    if method == 'python':
        simulator.evolve_python(0.1)
    elif method == 'numpy':
        simulator.evolve_numpy(0.1)

執行 Benchmark 測試

現在，讓我們執行 benchmark 測試，以比較 ‘python’ 和 ’numpy’ 方法的效能。

%timeit benchmark(100, 'python')
%timeit benchmark(100, 'numpy')

結果顯示，’numpy’ 方法比 ‘python’ 方法快了一點，但差距並不明顯。

增加粒子數量

讓我們增加粒子數量，看看是否能夠看到更明顯的效能提升。

%timeit benchmark(1000, 'python')
%timeit benchmark(1000, 'numpy')

結果顯示，當粒子數量增加到 1000 時，’numpy’ 方法的效能提升更加明顯。

圖表翻譯：

  flowchart TD
    A[定義 benchmark 函式] --> B[執行 benchmark 測試]
    B --> C[比較 'python' 和 'numpy' 方法的效能]
    C --> D[增加粒子數量]
    D --> E[觀察效能提升]

圖表解釋：

上述流程圖描述了最佳化粒子模擬器的效能的步驟。首先，定義一個 benchmark 函式，該函式可以根據指定的方法來執行模擬。然後，執行 benchmark 測試，以比較 ‘python’ 和 ’numpy’ 方法的效能。接著，增加粒子數量，看看是否能夠看到更明顯的效能提升。最後，觀察效能提升的結果。

內容解密：

在這個例子中，我們使用 NumPy 來最佳化粒子模擬器的效能。NumPy 是一個高效能的數值計算函式庫，提供了大量的數學函式和運算子。透過使用 NumPy，我們可以將粒子模擬器的效能提升幾倍。這是因為 NumPy 可以高效地處理大型陣列，減少了迴圈的執行時間。因此，當粒子數量增加時，’numpy’ 方法的效能提升更加明顯。

最佳化陣列運算的效能

在進行大規模的資料處理時，能夠高效地運算陣列是非常重要的。NumPy 是一個強大的工具，可以幫助我們實作這一點。然而，當涉及到複雜的表示式時，NumPy 的效能可能會受到影響。

使用 numexpr 來最佳化表示式

numexpr 是一個可以幫助我們最佳化陣列表達式的工具。它可以將複雜的表示式編譯成高效的機器碼，從而提高運算速度。使用 numexpr 非常簡單，只需要將表示式傳遞給 numexpr.evaluate() 函式即可。

import numpy as np
import numexpr as ne

a = np.random.rand(10000)
b = np.random.rand(10000)
c = np.random.rand(10000)

d = ne.evaluate('a + b * c')

計算距離矩陣

距離矩陣是粒子系統中的一個重要概念，它包含了所有粒子之間的距離。計算距離矩陣可以使用 numexpr 來最佳化。

import numpy as np
import numexpr as ne

x = np.random.rand(1000)
y = np.random.rand(1000)

x_ij = x[:, None] - x[None, :]
y_ij = y[:, None] - y[None, :]

d_ij = ne.evaluate('sqrt(x_ij**2 + y_ij**2)')

效能比較

使用 numexpr 可以大大提高陣列運算的效能。以下是使用 numexpr 和 NumPy 進行距離矩陣計算的效能比較：

import timeit

def calculate_distance_matrix_numpy(x, y):
    x_ij = x[:, None] - x[None, :]
    y_ij = y[:, None] - y[None, :]
    d_ij = np.sqrt(x_ij**2 + y_ij**2)
    return d_ij

def calculate_distance_matrix_numexpr(x, y):
    x_ij = x[:, None] - x[None, :]
    y_ij = y[:, None] - y[None, :]
    d_ij = ne.evaluate('sqrt(x_ij**2 + y_ij**2)')
    return d_ij

x = np.random.rand(1000)
y = np.random.rand(1000)

numpy_time = timeit.timeit(lambda: calculate_distance_matrix_numpy(x, y), number=10)
numexpr_time = timeit.timeit(lambda: calculate_distance_matrix_numexpr(x, y), number=10)

print(f'NumPy time: {numpy_time:.2f} seconds')
print(f'numexpr time: {numexpr_time:.2f} seconds')

結果顯示，使用 numexpr 可以將計算距離矩陣的時間減少了約 30%。

圖表翻譯：

以下是使用 Matplotlib 繪製的距離矩陣計算時間比較圖表：

  flowchart TD
    A[計算距離矩陣] --> B[使用 NumPy]
    A --> C[使用 numexpr]
    B --> D[計算時間]
    C --> E[計算時間]
    D --> F[比較結果]
    E --> F
    F --> G[顯示結果]

內容解密：

在這個例子中，我們使用 numexpr 來最佳化距離矩陣的計算。numexpr 可以將複雜的表示式編譯成高效的機器碼，從而提高運算速度。結果顯示，使用 numexpr 可以將計算距離矩陣的時間減少了約 30%。這個例子展示瞭如何使用 numexpr 來最佳化陣列運算的效能。

使用 NumPy 和 numexpr 計算距離矩陣

在計算距離矩陣的過程中，我們可以使用 NumPy 和 numexpr 兩種不同的方法。以下是使用 NumPy 的實作：

import numpy as np

r = np.random.rand(10000, 2)

r_i = r[:, np.newaxis]

r_j = r[np.newaxis, :]

d_ij = r_j - r_i

d_ij = np.sqrt((d_ij ** 2).sum(axis=2))

這段程式碼計算了兩組隨機向量之間的距離矩陣。

使用 numexpr 的實作如下：

import numexpr as ne
import numpy as np

r = np.random.rand(10000, 2)

r_i = r[:, np.newaxis]

r_j = r[np.newaxis, :]

d_ij = ne.evaluate('sum((r_j - r_i)**2, 2)')

d_ij = ne.evaluate('sqrt(d_ij)')

在這段程式碼中，我們使用 numexpr 的 evaluate 函式來計算距離矩陣。numexpr 的優點在於它可以避免不必要的記憶體組態，並且可以將運算分配到多個處理器上。

內容解密：

我們首先生成兩組隨機向量 r，每組向量有 2 個元素。
然後，我們使用 NumPy 的廣播功能，將 r 轉換為 r_i 和 r_j，以便計算距離矩陣。
接下來，我們使用 NumPy 的 sqrt 函式和 sum 函式計算距離矩陣。
在 numexpr 的實作中，我們使用 evaluate 函式來計算距離矩陣。首先，我們計算向量之間的差的平方和，然後計算平方根。

圖表翻譯：

  flowchart TD
    A[生成隨機向量] --> B[計算距離矩陣]
    B --> C[使用 NumPy]
    C --> D[使用 numexpr]
    D --> E[計算距離矩陣]
    E --> F[輸出結果]

在這個流程圖中，我們首先生成隨機向量，然後計算距離矩陣。距離矩陣的計算可以使用 NumPy 或 numexpr 兩種方法。最終，我們輸出計算結果。

程式碼比較：

使用 NumPy 和 numexpr 兩種方法計算距離矩陣的程式碼如下：

import numpy as np
import numexpr as ne

def distance_matrix_numpy(r):
    r_i = r[:, np.newaxis]
    r_j = r[np.newaxis, :]
    d_ij = r_j - r_i
    d_ij = np.sqrt((d_ij ** 2).sum(axis=2))
    return d_ij

def distance_matrix_numexpr(r):
    r_i = r[:, np.newaxis]
    r_j = r[np.newaxis, :]
    d_ij = ne.evaluate('sum((r_j - r_i)**2, 2)')
    d_ij = ne.evaluate('sqrt(d_ij)')
    return d_ij

這兩個函式都可以計算距離矩陣，但使用的方法不同。distance_matrix_numpy 函式使用 NumPy 的 sqrt 函式和 sum 函式計算距離矩陣，而 distance_matrix_numexpr 函式使用 numexpr 的 evaluate 函式計算距離矩陣。

使用 Pandas 進行資料分析

在前面的章節中，我們探討瞭如何使用 NumPy 進行高效的陣列運算。然而，在許多實際應用中，資料不僅僅是簡單的陣列，而是具有明確的結構和標籤。這就是 Pandas 的用武之地。Pandas 是一個強大的函式庫，最初由玄貓開發，旨在提供一個高效且易於使用的資料分析工具。

Pandas 基礎

Pandas 的主要資料結構包括 Series、DataFrame 和 Panel。在本章中，我們將使用 pd 來縮寫 Pandas。

與 NumPy 陣列相比，Pandas Series 的主要區別在於它可以為每個元素賦予一個特定的鍵。讓我們透過一個例子來瞭解這個概念。假設我們正在測試一種新的降血壓藥物，並且想要儲存每個病人的血壓是否在服用藥物後改善。我們可以使用布林值（True 或 False）來表示藥物是否有效。

import pandas as pd

patients = [0, 1, 2, 3]
effective = [True, True, False, False]

# 建立一個 Pandas Series 物件
series = pd.Series(effective, index=patients)
print(series)

資料結構：Series、DataFrame 和 Panel

Series：是一維的標籤陣列，可以想像成一個有索引的列表。
DataFrame：二維的標籤資料結構，類似於 Excel 試算表或 SQL 表格。
Panel：三維的標籤資料結構，類似於一組 DataFrame。

DataFrame

DataFrame 是 Pandas 中最常用的資料結構。它是一個二維的表格，包含行索引和列索引，可以儲存不同型別的資料。

import pandas as pd

# 建立一個 DataFrame
data = {'Name': ['John', 'Anna', 'Peter', 'Linda'],
        'Age': [28, 24, 35, 32],
        'Country': ['USA', 'UK', 'Australia', 'Germany']}
df = pd.DataFrame(data)
print(df)

資料操作

Pandas 提供了多種方法來操作和分析資料，包括篩選、分組、排序、合併等。

# 篩選資料
filtered_df = df[df['Age'] > 30]
print(filtered_df)

# 分組和統計
grouped_df = df.groupby('Country')['Age'].mean()
print(grouped_df)

使用 Pandas 處理資料

Pandas 是一個強大的 Python 函式庫，提供了高效的資料結構和資料分析工具。其中，pd.Series 和 pd.DataFrame 是兩個最重要的資料結構。

pd.Series

pd.Series是一種一維的資料結構，類似於 Python 的字典（dictionary）。它可以將一組值與一組索引（key）進行對映。例如：

patients = ["a", "b", "c", "d"]
effective = [True, True, False, False]
effective_series = pd.Series(effective, index=patients)

這裡，effective_series 是一個 pd.Series 物件，它將 effective 列表中的值與 patients 列表中的索引進行對映。

pd.DataFrame

pd.DataFrame是一種二維的資料結構，類似於 Excel 的表格。它可以將多組資料與多個索引進行對映。例如：

patients = ["a", "b", "c", "d"]
columns = {
    "sys_initial": [120, 126, 130, 115],
    "dia_initial": [75, 85, 90, 87],
    "sys_final": [115, 123, 130, 118],
    "dia_final": [70, 82, 92, 87]
}
df = pd.DataFrame(columns, index=patients)

這裡，df 是一個 pd.DataFrame 物件，它將 columns 字典中的值與 patients 列表中的索引進行對映。

初始化 pd.DataFrame

除了使用字典初始化 pd.DataFrame 之外，也可以使用 pd.Series 例項初始化。例如：

columns = {
    "sys_initial": pd.Series([120, 126, 130, 115], index=patients),
    "dia_initial": pd.Series([75, 85, 90, 87], index=patients),
    "sys_final": pd.Series([115, 123, 130, 118], index=patients),
    "dia_final": pd.Series([70, 82, 92, 87], index=patients)
}
df = pd.DataFrame(columns)

這兩種初始化方法都可以建立出相同的 pd.DataFrame 物件。

圖表翻譯：

  graph LR
    A[patients] -->|索引|> B[pd.Series]
    B -->|對映|> C[有效性]
    C -->|值|> D[pd.DataFrame]
    D -->|多個索引|> E[多個值]

這個圖表展示了 pd.Series 和 pd.DataFrame 之間的關係，以及如何使用索引和值進行對映。

使用 Pandas 進行資料操作

Pandas 是一個強大的 Python 函式函式庫，提供了高效的資料操作和分析工具。以下是使用 Pandas 進行資料操作的範例：

import pandas as pd

# 建立一個字典，包含資料
data = {
    "sys_final": pd.Series([115, 123, 130, 118], index=["a", "b", "c", "d"]),
    "dia_final": pd.Series([70, 82, 92, 87], index=["a", "b", "c", "d"])
}

# 建立一個 DataFrame
df = pd.DataFrame(data)

# 顯示 DataFrame 的前幾行
print(df.head())

# Output:
#    sys_final  dia_final
# a       115         70
# b       123         82
# c       130         92
# d       118         87

在這個範例中，我們建立了一個字典，包含兩個 Series 物件，然後使用 pd.DataFrame 函式建立一個 DataFrame。接著，我們使用 head 方法顯示 DataFrame 的前幾行。

使用 Pandas 進行資料操作

Pandas 提供了多種方法來進行資料操作，包括：

loc 和 iloc 方法：用於選擇 DataFrame 中的特定行和列。
groupby 方法：用於將 DataFrame 中的資料進行分組和聚合。
merge 方法：用於合併多個 DataFrame。

以下是使用 loc 方法選擇 DataFrame 中的特定行和列的範例：

# 選擇 DataFrame 中的特定行和列
print(df.loc["a", "sys_final"])  # Output: 115
print(df.loc["b", "dia_final"])  # Output: 82

使用 Pandas 進行資料分析

Pandas 提供了多種方法來進行資料分析，包括：

mean 方法：用於計算 DataFrame 中的平均值。
std 方法：用於計算 DataFrame 中的標準差。
corr 方法：用於計算 DataFrame 中的相關係數。

以下是使用 mean 方法計算 DataFrame 中的平均值的範例：

# 計算 DataFrame 中的平均值
print(df["sys_final"].mean())  # Output: 121.5
print(df["dia_final"].mean())  # Output: 82.5

圖表翻譯：

  graph LR
    A[資料操作] --> B[選擇特定行和列]
    A --> C[合併多個 DataFrame]
    A --> D[計算平均值和標準差]
    B --> E[使用 loc 方法]
    C --> F[使用 merge 方法]
    D --> G[使用 mean 和 std 方法]

在這個圖表中，我們展示了使用 Pandas 進行資料操作的流程，包括選擇特定行和列、合併多個 DataFrame、計算平均值和標準差等。

資料索引和存取

在使用 Pandas 時，瞭解如何索引和存取資料是非常重要的。Pandas 提供了多種方式來存取 Series 和 DataFrame 中的資料。

Series 索引

Series 可以使用 loc 和 iloc 來存取資料。loc 是根據索引標籤（label）來存取資料，而 iloc 是根據位置（position）來存取資料。

import pandas as pd

# 建立一個 Series
series = pd.Series([True, False, True], index=['a', 'b', 'c'])

# 使用 loc 存取資料
print(series.loc['a'])  # True

# 使用 iloc 存取資料
print(series.iloc[0])  # True

DataFrame 索引

DataFrame 也可以使用 loc 和 iloc 來存取資料。loc 可以根據索引標籤和欄位名稱來存取資料，而 iloc 可以根據位置來存取資料。

import pandas as pd

# 建立一個 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=['a', 'b', 'c'])

# 使用 loc 存取資料
print(df.loc['a'])  # A    1, B    4

# 使用 iloc 存取資料
print(df.iloc[0])  # A    1, B    4

Panel

雖然 Pandas 提供了 Panel 的資料結構，但是由於其使用頻率不高，本文不會深入探討 Panel 的使用方式。如果您需要使用 Panel，可以參考 Pandas 的官方檔案。

資料函式庫式資料

Pandas 也提供了許多功能來處理資料函式庫式資料，例如索引、分組和合併資料等。如果您需要使用這些功能，可以參考 Pandas 的官方檔案。

圖表翻譯：

  graph LR
    A[Series] -->|loc|> B[資料]
    A -->|iloc|> C[資料]
    D[DataFrame] -->|loc|> E[資料]
    D -->|iloc|> F[資料]

在這個圖表中，我們可以看到 Series 和 DataFrame 都可以使用 loc 和 iloc 來存取資料。

效能最佳化：索引排序與查詢

在使用 Pandas 進行資料操作時，索引的效能對於查詢速度有著重要影響。尤其是當索引中包含重複元素時，查詢效能可能會大幅下降。這是因為 Pandas 在處理非唯一索引時，可能需要進行線性搜尋（O(N)），而不是像字典一樣的直接存取（O(1)）。

非唯一索引的效能問題

當索引中包含重複元素時，Pandas 不能夠像字典一樣直接存取元素。這是因為字典的鍵是唯一的，而 Pandas 的索引可以包含重複元素。因此，當我們試圖存取一個非唯一索引中的元素時，Pandas 需要進行線性搜尋，以找到所有匹配的元素。

排序索引的好處

排序索引可以大幅改善查詢效能。透過排序索引，Pandas 可以使用二分查詢演算法，將查詢時間複雜度從 O(N) 降低到 O(log(N))。這對於大型資料集尤其重要，因為它可以大幅提高查詢速度。

使用 `sort_index` 函式排序索引

Pandas 提供了 sort_index 函式來排序索引。這個函式可以用於 pd.Series 和 pd.DataFrame 物件。以下是使用 sort_index 函式排序索引的示例：

import pandas as pd

# 建立一個示例資料集
data = {'sys_initial': [120, 115, 110], 
        'sys_final': [100, 105, 110]}
index = ['a', 'b', 'c']
df = pd.DataFrame(data, index=index)

# 對索引進行排序
df_sorted = df.sort_index()

print(df_sorted)

使用 Pandas 進行資料操作

Pandas 是一個強大的資料操作函式庫，提供了高效的資料結構和操作方法。以下是使用 Pandas 進行資料操作的範例。

資料索引和排序

Pandas 的 Series 和 DataFrame 都支援資料索引和排序。以下是建立一個具有重複索引的 Series 並進行排序的範例：

import pandas as pd

# 建立一個具有重複索引的 Series
index = list(range(1000)) + list(range(1000))
series = pd.Series(range(2000), index=index)

# 對 Series 進行排序
series.sort_index(inplace=True)

排序後的 Series 會改善查詢效率，從 O(N) 變為 O(log N)。

資料函式庫風格的操作

Pandas 的 DataFrame 支援資料函式庫風格的操作，例如計數、聯結、分組和聚合。以下是使用 Pandas 進行資料函式庫風格操作的範例：

import pandas as pd

# 建立一個 DataFrame
data = {'name': ['John', 'Mary', 'John', 'Mary'],
        'age': [25, 31, 25, 31]}
df = pd.DataFrame(data)

# 計數
count = df['name'].value_counts()

# 聯結
df2 = pd.DataFrame({'name': ['John', 'Mary'],
                     'city': ['New York', 'Los Angeles']})
df = pd.merge(df, df2, on='name')

# 分組和聚合
grouped = df.groupby('name')['age'].mean()

元素級別的操作

Pandas 支援元素級別的操作，例如對 Series 和 DataFrame 進行元素級別的運算。以下是使用 Pandas 進行元素級別操作的範例：

import pandas as pd
import numpy as np

# 建立一個 Series
series = pd.Series([1, 2, 3])

# 對 Series 進行元素級別的運算
log_series = np.log(series)
square_series = series ** 2

# 建立一個 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 對 DataFrame 進行元素級別的運算
log_df = np.log(df)
square_df = df ** 2

元素級別的運算之間的操作

Pandas 支援元素級別的運算之間的操作，例如對兩個 Series 進行元素級別的運算。以下是使用 Pandas 進行元素級別的運算之間的操作的範例：

import pandas as pd

# 建立兩個 Series
a = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
b = pd.Series([4, 5, 6], index=['a', 'b', 'c'])

# 對兩個 Series 進行元素級別的運算
result = a + b

如果兩個 Series 的索引不匹配，則結果會是 NaN。

使用 pandas 的 map 方法進行資料轉換

pandas 提供了多種方法來進行資料轉換，包括 map、apply 和 applymap。這些方法可以用來對資料進行特定的轉換。

從使用者經驗和效能最佳化的角度來看，Python 的 NumPy 和 Pandas 函式庫為資料科學和機器學習任務提供了強大的工具。深入剖析這些函式庫的核心功能，可以發現它們在處理大規模資料和複雜運算方面的顯著優勢。

分析段落：我們比較了 Python 原生方法和 NumPy 在粒子模擬中的效能差異，並發現 NumPy 在處理大量粒子時展現出更高的效率。此外，numexpr 的引入進一步提升了陣列運算的效能，尤其在計算距離矩陣等複雜運算時效果顯著。Pandas 則在資料結構化和資料函式庫風格操作方面表現出色，Series 和 DataFrame 提供了便捷的資料索引、排序、分組和聚合功能，大幅簡化了資料處理流程。map、apply 和 applymap 等方法則提供了更靈活的資料轉換方式，方便使用者根據需求進行客製化操作。然而，需要注意的是，非唯一索引可能會影響 Pandas 的查詢效能，因此排序索引對於提升查詢速度至關重要。

前瞻段落：隨著資料規模的不斷增長和演算法複雜度的提升，預計 NumPy 和 Pandas 將持續最佳化其效能，並整合更多進階功能。同時，與其他資料科學工具和平臺的整合也將成為發展趨勢，例如與 Spark 和 Dask 的整合，以支援分散式運算和處理更大規模的資料集。

收尾段落：玄貓認為，熟練掌握 NumPy 和 Pandas 的核心功能和效能最佳化技巧，對於提升資料科學專案的效率和效能至關重要。建議開發者深入理解這些函式庫的底層機制，並根據實際應用場景選擇合適的資料結構和操作方法。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。

Python NumPy 與 Pandas 效能最佳化技巧

Benchmark 測試

執行 Benchmark 測試

增加粒子數量

圖表翻譯：

圖表解釋：

內容解密：

最佳化陣列運算的效能

使用 numexpr 來最佳化表示式

計算距離矩陣

效能比較

圖表翻譯：

內容解密：

使用 NumPy 和 numexpr 計算距離矩陣

內容解密：

圖表翻譯：

程式碼比較：

使用 Pandas 進行資料分析

Pandas 基礎

資料結構：Series、DataFrame 和 Panel

DataFrame

資料操作

使用 Pandas 處理資料

pd.Series

pd.DataFrame

初始化 pd.DataFrame

圖表翻譯：

使用 Pandas 進行資料操作

使用 Pandas 進行資料操作

使用 Pandas 進行資料分析

圖表翻譯：

資料索引和存取

Series 索引

DataFrame 索引

Panel

資料函式庫式資料

圖表翻譯：

效能最佳化：索引排序與查詢

非唯一索引的效能問題

排序索引的好處

使用 sort_index 函式排序索引

使用 Pandas 進行資料操作

資料索引和排序

資料函式庫風格的操作

元素級別的操作

元素級別的運算之間的操作

使用 pandas 的 map 方法進行資料轉換

玄貓

使用 `sort_index` 函式排序索引