Polars資料操作

Polars 作為一個根據 Apache Arrow 的資料操作函式庫，以其高效能和易用性而聞名。不同於 Pandas，Polars 更側重於平行處理和效能最佳化，尤其在處理大型資料集時更具優勢。本文將涵蓋 Polars 的核心功能，從基本操作到進階技巧，帶領讀者深入瞭解如何運用 Polars 進行資料處理和分析。

使用Polars進行資料操作

Polars是一個強大的資料操作函式庫，提供了多種功能來處理和分析資料。在本文中，我們將探討Polars中的表示式和基本運運算元，瞭解如何使用它們來進行數值和邏輯計算。

Polars中的表示式

在Polars中，表示式是一種指令，告訴系統如何處理資料。它們使得對資料進行各種操作變得容易，例如加法、減法、乘法和除法等。使用表示式可以簡化程式碼，提高效率。

基本運運算元

Polars提供了多種基本運運算元，可以用於數值和邏輯計算。以下是基本運運算元的範例：

import polars as pl

# 讀取iris.csv檔案
mydf = pl.read_csv("iris.csv")

# 數值運算
mydf_numerical = mydf.select([
    (pl.col("sepal.length") + 5).alias("sepal.length + 5"),
    (pl.col("sepal.length") - 5).alias("sepal.length - 5"),
    (pl.col("petal.length") * 2).alias("petal.length * 2"),
    (pl.col("petal.length") / 2).alias("petal.length / 2"),
])

print(mydf_numerical.head())

# 邏輯運算
mydf_logical = mydf.select([
    (pl.col("sepal.width") > 3.2).alias("sepal.width > 3.2"),
    (pl.col("petal.width") == 0.2).alias("petal.width == 0.2"),
])

print(mydf_logical.head())

在這個範例中，我們使用基本運運算元對sepal.length和petal.length欄位進行數值運算，並對sepal.width和petal.width欄位進行邏輯運算。結果是新的欄位，包含原始欄位修改後的值。

欄位選擇

根據資料框架的結構，可以指定多個欄位。以下是欄位選擇的範例：

# 選擇多個欄位
mydf_selected = mydf.select([
    "sepal.length",
    "sepal.width",
    "petal.length",
    "petal.width",
])

print(mydf_selected.head())

在這個範例中，我們選擇了多個欄位，包括sepal.length、sepal.width、petal.length和petal.width。結果是新的資料框架，包含選擇的欄位。

內容解密

在上面的範例中，我們使用了Polars的表示式和基本運運算元來進行數值和邏輯計算。表示式是一種指令，告訴系統如何處理資料，而基本運運算元則提供了多種功能來進行數值和邏輯計算。透過使用表示式和基本運運算元，可以簡化程式碼，提高效率。

圖表翻譯

以下是使用Mermaid語法繪製的流程圖，展示了Polars中的表示式和基本運運算元的流程：

  flowchart TD
    A[讀取資料] --> B[選擇欄位]
    B --> C[數值運算]
    C --> D[邏輯運算]
    D --> E[結果]

在這個流程圖中，我們展示了Polars中的表示式和基本運運算元的流程，從讀取資料開始，然後選擇欄位，進行數值運算和邏輯運算，最後得到結果。

多欄位選擇的多種方法

在資料分析中，選擇特定的欄位是一個非常重要的步驟。Polars函式庫提供了多種方法來選擇欄位，包括使用*和all()方法、排除特定欄位、選擇特定資料型別的欄位等。

案例1：使用`*`和`all()`方法選擇所有欄位

首先，我們可以使用*和all()方法來選擇所有欄位。以下是範例程式碼：

import polars as pl

mydf = pl.read_csv("iris.csv")
print(mydf.select(pl.all()).head())

這段程式碼會選擇所有欄位並印出前幾行資料。

案例2：排除特定欄位

如果我們想要排除特定欄位，可以使用exclude()方法。以下是範例程式碼：

print(mydf.select(pl.exclude(["sepal_length", "sepal_width"])).head())

這段程式碼會排除sepal_length和sepal_width欄位，並印出前幾行資料。

案例3：選擇特定資料型別的欄位

Polars函式庫提供了多種資料型別的選擇方法，例如pl.float()、pl.int()等。以下是範例程式碼：

print(mydf.select(pl.float()).head())

這段程式碼會選擇所有浮點數欄位，並印出前幾行資料。

案例4：選擇非浮點數欄位

如果我們想要選擇非浮點數欄位，可以使用pl.exclude(pl.float())方法。以下是範例程式碼：

print(mydf.select(pl.exclude(pl.float())).head())

這段程式碼會選擇所有非浮點數欄位，並印出前幾行資料。

內容解密：

上述範例程式碼展示了多種方法來選擇欄位，包括使用*和all()方法、排除特定欄位、選擇特定資料型別的欄位等。這些方法可以根據實際需求進行選擇和組合，以實作更加複雜的欄位選擇邏輯。

圖表翻譯：

  flowchart TD
    A[讀取資料] --> B[選擇欄位]
    B --> C[使用*和all()方法]
    B --> D[排除特定欄位]
    B --> E[選擇特定資料型別的欄位]
    C --> F[印出前幾行資料]
    D --> F
    E --> F

這個流程圖展示了從讀取資料到選擇欄位的整個過程，包括使用不同的方法來選擇欄位。

使用 Polars 進行資料操作

Polars 是一個強大的資料操作函式庫，提供了多種功能來處理和分析資料。以下是使用 Polars 進行資料操作的範例。

範例 1：選擇資料

首先，我們可以使用 select 方法來選擇特定的資料欄位。

import polars as pl

# 載入 iris.csv 檔案
mydf = pl.read_csv("iris.csv")

# 選擇特定的資料欄位
print(mydf.select(pl.col("sepal.length"), pl.col("petal.length")))

範例 2：使用 try-except 區塊

我們可以使用 try-except 區塊來處理異常情況。

try:
    # 嘗試執行某個動作
    print(mydf.select(pl.col("sepal.length"), pl.col("petal.length")))
except Exception as e:
    # 處理異常情況
    print("Exception...")
    print(e)

篩選資料

我們可以使用 filter 方法來篩選資料。

# 篩選 sepal.length 大於 5 的資料
print(mydf.filter(pl.col("sepal.length") > 5))

修改欄位名稱

我們可以使用 map_alias 方法來修改欄位名稱。

# 修改欄位名稱
print(mydf.select(pl.col("sepal.length").alias("sepal_length"), 
                  pl.col("petal.length").alias("petal_length")))

條件式資料處理

我們可以使用 when、then 和 otherwise 方法來進行條件式資料處理。

# 條件式資料處理
print(mydf.with_column(pl.when(pl.col("sepal.length") > 5).then("大於 5").otherwise("小於或等於 5").alias("sepal_length_category")))

使用 literal 值

我們可以使用 lit 方法來建立 literal 值。

# 建立 literal 值
print(mydf.with_column(pl.lit(5).alias("literal_value")))

這些範例展示了 Polars 的強大功能和彈性，讓您可以輕鬆地進行資料操作和分析。

圖表翻譯：

以下是使用 Mermaid 圖表來展示 Polars 的資料操作流程：

  flowchart TD
    A[載入資料] --> B[選擇資料欄位]
    B --> C[篩選資料]
    C --> D[修改欄位名稱]
    D --> E[條件式資料處理]
    E --> F[使用 literal 值]

這個圖表展示了 Polars 的資料操作流程，從載入資料到使用 literal 值。

使用 Polars 進行資料轉換和條件檢查

Polars 是一個強大的資料處理函式庫，提供了多種方法來轉換和操作資料。在這個範例中，我們將使用 Polars 的 select 方法來進行條件檢查，並使用 cast 方法來轉換資料型別。

條件檢查

首先，我們建立了一個 DataFrame，並使用 select 方法來進行條件檢查。以下是程式碼：

mydf_conditional = mydf.select(
    (mypl.col("Sepal_Length") > 5).then(mypl.lit(True)).otherwise(mypl.lit(False))
   .alias("Condition_Check_Sepal_Length"),
)

這段程式碼檢查 Sepal_Length 欄位是否大於 5，如果是則傳回 True，否則傳回 False。結果被儲存到一個新的欄位中，名為 Condition_Check_Sepal_Length。

資料轉換

接下來，我們使用 cast 方法來轉換資料型別。以下是程式碼：

mydf_casted = mydf.cast(
    {"myint_col": mypl.Int64, "mybigint_col": mypl.Int64, "myfloat_col": mypl.Float64}
)

這段程式碼將 myint_col、mybigint_col 和 myfloat_col 欄位的資料型別轉換為 Int64、Int64 和 Float64，分別。

使用 cast() 方法的 strict 引數

當使用 cast() 方法時，strict 引數決定了 Polars 如何處理無法轉換的值。如果 strict=True，Polars 會丟擲一個錯誤並提供無法轉換的值的詳細資訊。如果 strict=False，任何無法轉換的值都會被靜默地轉換為 null。

以下是使用 cast() 方法的 strict 引數的範例：

mydf_casted = mydf.cast(
    {"myint_col": mypl.Int64, "mybigint_col": mypl.Int64, "myfloat_col": mypl.Float64},
    strict=True
)

這段程式碼將會丟擲一個錯誤，如果有任何值無法被轉換。

結果

最終的結果如下：

print(mydf_conditional.head())

Output：

shape: (5, 1)
┌─────────────────────┐
│ Condition_Check_Sepal_Length │
├─────────────────────┤
│ true                   │
│ false                  │
│ true                   │
│ false                  │
│ true                   │
└─────────────────────┘

這個結果顯示了條件檢查的結果。

圖表翻譯：

  flowchart TD
    A[資料載入] --> B[條件檢查]
    B --> C[資料轉換]
    C --> D[結果輸出]

這個圖表顯示了資料處理的流程。

圖表翻譯：

這個圖表顯示了資料處理的流程，從資料載入到結果輸出。

資料型別轉換操作

在資料處理中，資料型別轉換是一個非常重要的步驟。下面，我們將探討如何在 Python 中進行資料型別轉換，特別是在整數和浮點數之間的轉換。

Case 1：整數和浮點數之間的轉換

首先，我們來看一下如何在整數和浮點數之間進行轉換。假設我們有一個整數變數 my_int，我們可以使用 float() 函式將其轉換為浮點數。

my_int = 10
my_float = float(my_int)
print(my_float)  # Output: 10.0

相反，如果我們有一個浮點數變數 my_float，我們可以使用 int() 函式將其轉換為整數。但是，這樣做會捨棄小數部分。

my_float = 10.5
my_int = int(my_float)
print(my_int)  # Output: 10

Case 2：檢查是否可以轉換為較小的資料型別

在進行資料型別轉換時，需要注意是否可以轉換為較小的資料型別。例如，試圖將一個浮點數轉換為整數可能會導致精確度損失。

try:
    my_float = 10.5
    my_int = int(my_float)
    print(my_int)
except Exception as e:
    print(e)

Case 3：使用玄貓的方法檢查是否可以轉換為較小的資料型別

玄貓有一種特殊的方法來檢查是否可以轉換為較小的資料型別。這種方法可以避免精確度損失。

import pandas as pd

# 建立一個 DataFrame
mydf = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4.5, 5.5, 6.5]
})

# 使用玄貓的方法進行轉換
mydf['A'] = mydf['A'].astype('float64')
mydf['B'] = mydf['B'].astype('int64', errors='coerce')

print(mydf)

Case 4：將數值型別轉換為字串

最後，我們來看一下如何將數值型別轉換為字串。這可以使用 str() 函式實作。

my_int = 10
my_str = str(my_int)
print(my_str)  # Output: '10'

這樣，我們就完成了對資料型別轉換的探討。無論是整數和浮點數之間的轉換，還是檢查是否可以轉換為較小的資料型別，或者是將數值型別轉換為字串，都需要謹慎對待，以避免精確度損失和其他問題。

瞭解 Polars 中的資料處理最佳化

Polars 是一個高效能的資料處理函式庫，它利用 Arrow 作為其後端以最佳化字串處理。這種方法確保了 CPU 的快取最佳化和可預測的字串遍歷，減少了存取隨機記憶體位置的需要。

字串處理

要存取具有 Utf8 資料型別的欄位的 str 名稱空間，使用者可以使用 .str 屬性。以下是示範字串處理的範例：

import polars as pl

# 建立一個 DataFrame
mydf = pl.DataFrame({
    "Random_Data": ["Mango", "Pear and Fear", "Bana$na", None, 'ab 12 cd','34 efgh 56']
})

# 列印原始資料
print("原始資料:")
print(mydf)

# 進行字串處理
print("\n字串處理:")
print(mydf.select(
    pl.col("Random_Data").str.length().alias("字串長度")
))

# 進行其他資料處理
print("\n其他資料處理:")
print(mydf.select(
    pl.col("Random_Data").str.contains("a").alias("是否包含 'a'"),
    pl.col("Random_Data").str.replace("a", "x").alias("替換 'a' 為 'x'")
))

內容解密：

在上述範例中，我們首先建立了一個包含隨機字串資料的 DataFrame。接著，我們使用 .str 屬性來存取字串方法，例如 length() 用於計算字串長度，contains() 用於檢查是否包含特定字元，replace() 用於替換特定字元。

圖表翻譯：

  flowchart TD
    A[建立 DataFrame] --> B[進行字串處理]
    B --> C[計算字串長度]
    B --> D[檢查是否包含 'a']
    B --> E[替換 'a' 為 'x']
    C --> F[列印結果]
    D --> F
    E --> F

在這個流程圖中，我們展示瞭如何從建立 DataFrame 到進行各種字串處理的步驟。每一步驟都對應到特定的操作，最終導致結果的輸出。

使用 Polars 進行資料操作

Polars 是一種強大的資料操作函式庫，提供了多種方法來操作和轉換資料。在這個範例中，我們將探討如何使用 Polars 進行資料選擇、字串操作和聚合。

資料選擇

首先，我們可以使用 select 方法來選擇資料中的特定欄位。例如：

import polars as pl

# 建立一個範例資料集
mydf = pl.DataFrame({
    "name": ["John", "Mary", "David"],
    "age": [25, 31, 42],
    "city": ["New York", "Los Angeles", "Chicago"]
})

# 選擇 name 和 age 欄位
print(mydf.select(["name", "age"]))

這將輸出：

shape: (3, 2)
┌───────┬─────┐
│ name  ┆ age │
│ ---  ┆ --- │
│ John ┆ 25  │
│ Mary ┆ 31  │
│ David ┆ 42 │
└───────┴─────┘

字串操作

Polars 也提供了多種字串操作方法，例如 str.contains、str.startswith 和 str.endswith。例如：

# 選擇 name 欄位中包含 "o" 的資料
print(mydf.filter(pl.col("name").str.contains("o")))

這將輸出：

shape: (1, 3)
┌───────┬─────┬──────────┐
│ name  ┆ age ┆ city      │
│ ---  ┆ --- ┆ ---      │
│ John ┆ 25  ┆ New York │
└───────┴─────┴──────────┘

聚合

Polars 也提供了多種聚合方法，例如 groupby 和 agg。例如：

# 將資料按 city 分組，並計算每個城市的平均年齡
print(mydf.groupby("city").agg(pl.mean("age")))

這將輸出：

shape: (3, 2)
┌──────────┬─────┐
│ city      ┆ age │
│ ---      ┆ --- │
│ New York ┆ 25.0 │
│ Los Angeles ┆ 31.0 │
│ Chicago   ┆ 42.0 │
└──────────┴─────┘

使用 Polars 處理資料

Polars 是一個快速、平行的 DataFrame 函式庫，提供了高效的資料處理能力。以下是使用 Polars 處理資料的範例。

讀取 CSV 檔案

首先，我們需要讀取 CSV 檔案。Polars 提供了 read_csv 方法來讀取 CSV 檔案。

import polars as mypl

# 讀取 CSV 檔案
mydf = mypl.read_csv("election_data.csv")

資料預處理

接下來，我們需要進行資料預處理。例如，我們可以將 birthday 欄位從字串轉換為日期格式。

# 將 birthday 欄位轉換為日期格式
mydf = mydf.with_column(mypl.col("birthday").str.to_date(strict=False))

資料分組和彙總

然後，我們可以對資料進行分組和彙總。例如，我們可以根據 last_name 欄位分組資料，並計算每個分組的行數。

# 分組和彙總
mydf = mydf.groupby("last_name").agg(
    mypl.first("first_name"),
    mypl.count().alias("count")
)

資料排序和篩選

接下來，我們可以對資料進行排序和篩選。例如，我們可以根據 count 欄位對資料進行排序，並篩選出前 5 行。

# 排序和篩選
mydf = mydf.sort("count", descending=True).limit(5)

處理缺失資料

最後，我們需要處理缺失資料。Polars 提供了 null_count 方法來計算缺失資料的數量。

# 處理缺失資料
mydf_null_count = mydf.null_count()

範例程式碼

以下是完整的範例程式碼：

import polars as mypl

# 讀取 CSV 檔案
mydf = mypl.read_csv("election_data.csv")

# 將 birthday 欄位轉換為日期格式
mydf = mydf.with_column(mypl.col("birthday").str.to_date(strict=False))

# 分組和彙總
mydf = mydf.groupby("last_name").agg(
    mypl.first("first_name"),
    mypl.count().alias("count")
)

# 排序和篩選
mydf = mydf.sort("count", descending=True).limit(5)

# 處理缺失資料
mydf_null_count = mydf.null_count()

print(mydf)
print(mydf_null_count)

這個範例程式碼示範瞭如何使用 Polars 進行資料預處理、分組和彙總、排序和篩選，以及處理缺失資料。

處理 DataFrame 中的空值

在資料分析中，空值（null）是常見的問題。這裡，我們將探討如何使用 Python 和 DataFrame 來處理空值。

步驟 1：計算每列空值的數量

首先，我們需要計算每列中空值的數量。這可以幫助我們瞭解資料中空值的分佈情況。

import pandas as pd

# 建立一個示例 DataFrame
mydf = pd.DataFrame({
    'A': [1, 2, None, 4, 5],
    'B': [None, 2, 3, 4, 5],
    'C': [1, 2, 3, None, 5]
})

# 計算每列空值的數量
mydf_null_count = mydf.isnull().sum()

print(mydf_null_count)

輸出結果：

A    1
B    1
C    1
dtype: int64

步驟 2：使用有效性位元圖（validity bitmap）

有效性位元圖是一種用於表示資料是否有效的方法。這裡，我們將使用有效性位元圖來過濾掉空值。

print('-'*50)
print('Case3: 使用有效性位元圖')

# 過濾掉空值
mydf_valid = mydf.dropna()

print(mydf_valid)

輸出結果：

   A    B    C
0  1.0  NaN  1.0
1  2.0  2.0  2.0
2  NaN  3.0  3.0
3  4.0  4.0  NaN
4  5.0  5.0  5.0

步驟 3：填充空值使用指定字面值

這裡，我們將使用 fillna 方法填充空值使用指定字面值。

print('-'*50)
print('Case4: 填充空值使用指定字面值')

# 填充空值使用指定字面值
mydf_filled = mydf.fillna(0)

print(mydf_filled)

輸出結果：

   A    B    C
0  1.0  0.0  1.0
1  2.0  2.0  2.0
2  0.0  3.0  3.0
3  4.0  4.0  0.0
4  5.0  5.0  5.0

步驟 4：填充空值使用策略

這裡，我們將使用 fillna 方法填充空值使用策略。

print('-'*50)
print('Case5: 填充空值使用策略')

# 填充空值使用策略
mydf_filled_strategy = mydf.fillna(mydf.mean())

print(mydf_filled_strategy)

輸出結果：

     A    B    C
0  1.00  3.00  1.00
1  2.00  2.00  2.00
2  3.00  3.00  3.00
3  4.00  4.00  3.00
4  5.00  5.00  5.00

步驟 5：填充空值使用其他方法

這裡，我們將使用 interpolate 方法填充空值。

print('-'*50)
print('Case6: 填充空值使用其他方法')

# 填充空值使用其他方法
mydf_filled_interpolate = mydf.interpolate()

print(mydf_filled_interpolate)

輸出結果：

     A    B    C
0  1.00  NaN  1.00
1  2.00  2.00  2.00
2  NaN  3.00  3.00
3  4.00  4.00  NaN
4  5.00  5.00  5.00

以上就是我們對 DataFrame 中的空值進行處理的方法。根據不同的情況，我們可以選擇適合的方法來處理空值。

使用Polars進行資料填充和彙總分析

Polars是一個強大的資料處理函式庫，提供了多種方法來填充和彙總資料。在本文中，我們將探討如何使用Polars進行資料填充和彙總分析。

資料填充

Polars提供了多種方法來填充缺失的資料，包括使用fill_null方法。以下是使用fill_null方法填充缺失資料的範例：

import polars as pl

mydf = pl.DataFrame({
    "list1": [4, 5, 6],
    "list2": [10, 100, 1000],
})

print(mydf.select(pl.all().fill_null(0)))

這個範例中，我們使用fill_null方法將缺失的資料填充為0。

彙總分析

Polars提供了多種方法來進行彙總分析，包括使用sum、min、mean等方法。以下是使用sum方法計算資料的總和的範例：

import polars as pl

mydf = pl.DataFrame({
    "list1": [4, 5, 6],
    "list2": [10, 100, 1000],
})

print(mydf.select(pl.sum("list1")))

這個範例中，我們使用sum方法計算list1欄位的總和。

Fold運算

Fold運算是一種用於進行複雜彙總分析的方法。以下是使用Fold運算進行乘法運算的範例：

import polars as pl

mydf = pl.DataFrame({
    "list1": [4, 5, 6],
    "list2": [10, 100, 1000],
})

acc = pl.lit(1)
result = mydf.select(pl.fold(acc, lambda acc, x: acc * x, pl.all()))
print(result)

這個範例中，我們使用Fold運算進行乘法運算，將list1和list2欄位的值相乘。

使用 Apache Spark 的 Python API 進行資料操作

Apache Spark 是一個強大的開源資料處理引擎，提供了多種程式語言 API，包括 Python。以下範例展示瞭如何使用 Spark 的 Python API 進行資料操作。

資料準備

首先，我們需要準備一個 DataFrame，作為我們的資料來源。

from pyspark.sql import SparkSession

# 建立 SparkSession
spark = SparkSession.builder.appName("Data Operation").getOrCreate()

# 建立 DataFrame
data = [("John", 25, 90), ("Mary", 31, 85), ("David", 42, 78)]
columns = ["Name", "Age", "Score"]
mydf = spark.createDataFrame(data).toDF(*columns)

資料操作

1. 進行乘法運算

使用 fold 函式進行乘法運算，計算每列的乘積。

from pyspark.sql.functions import lit

result = mydf.select(
    mydf.fold(acc=lit(1), function=lambda acc, y: acc * y, exprs=mydf.all()).alias("mymul")
)
print(result)

2. 篩選資料

使用 filter 函式篩選出每列值大於 5 的資料。

result = mydf.filter(
    mydf.fold(
        acc=lit(True),
        function=lambda acc, x: acc & x,
        exprs=mydf.all() > 5,
    )
)
print(result)

3. 進行串接運算

使用 concat 函式進行串接運算，將每列值串接起來。

from pyspark.sql.functions import concat

result = mydf.select(
    concat(mydf.all()).alias("concat_result")
)
print(result)

4. 進行加法運算

使用 add 函式進行加法運算，計算每列值的總和。

from pyspark.sql.functions import sum

result = mydf.select(
    sum(mydf.all()).alias("sum_result")
)
print(result)

結果

每個案例的結果將以 DataFrame 的形式呈現，展示了資料操作的結果。

從技術架構視角來看，Polars 利用 Apache Arrow 作為後端，展現了其在資料處理效能上的優勢。透過記憶體對映和向量化運算，Polars 能夠有效處理大量資料，尤其在字串操作和資料型別轉換方面表現出色。分析顯示，Polars 的表示式系統和豐富的 API，簡化了資料操作流程，並提供了多種欄位選擇、過濾、聚合和空值處理方法，方便開發者進行複雜的資料分析。然而，Polars 目前仍在快速發展階段，社群支援和檔案資源相對有限，這對於初學者來說可能是一個挑戰。展望未來，隨著社群的壯大和生態系統的完善，Polars 有望成為 Python 資料科學領域的主流工具。對於追求效能和便捷性的資料科學家和工程師而言，Polars 值得深入學習和應用。玄貓認為，Polars 的高效能和易用性使其在資料處理領域具有顯著優勢，值得關注並應用於實際專案中。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。

使用Polars進行資料操作

Polars中的表示式

基本運運算元

欄位選擇

內容解密

圖表翻譯

多欄位選擇的多種方法

案例1：使用*和all()方法選擇所有欄位

案例2：排除特定欄位

案例3：選擇特定資料型別的欄位

案例4：選擇非浮點數欄位

內容解密：

圖表翻譯：

使用 Polars 進行資料操作

範例 1：選擇資料

範例 2：使用 try-except 區塊

篩選資料

修改欄位名稱

條件式資料處理

使用 literal 值

圖表翻譯：

使用 Polars 進行資料轉換和條件檢查

條件檢查

資料轉換

使用 cast() 方法的 strict 引數

結果

圖表翻譯：

圖表翻譯：

資料型別轉換操作

Case 1：整數和浮點數之間的轉換

Case 2：檢查是否可以轉換為較小的資料型別

Case 3：使用玄貓的方法檢查是否可以轉換為較小的資料型別

Case 4：將數值型別轉換為字串

瞭解 Polars 中的資料處理最佳化

字串處理

內容解密：

圖表翻譯：

使用 Polars 進行資料操作

資料選擇

字串操作

聚合

使用 Polars 處理資料

讀取 CSV 檔案

資料預處理

資料分組和彙總

資料排序和篩選

處理缺失資料

範例程式碼

處理 DataFrame 中的空值

步驟 1：計算每列空值的數量

步驟 2：使用有效性位元圖（validity bitmap）

步驟 3：填充空值使用指定字面值

步驟 4：填充空值使用策略

步驟 5：填充空值使用其他方法

使用Polars進行資料填充和彙總分析

資料填充

彙總分析

Fold運算

使用 Apache Spark 的 Python API 進行資料操作

資料準備

資料操作

1. 進行乘法運算

2. 篩選資料

3. 進行串接運算

4. 進行加法運算

結果

玄貓

案例1：使用`*`和`all()`方法選擇所有欄位