Python 解析 JSON YAML 資料格式處理技巧

Python 提供了強大的 json 和 yaml 模組，方便處理 JSON 和 YAML 格式的資料。首先，使用 json.loads() 將 JSON 字串轉換為 Python 字典，再利用迴圈迭代取出各個章節和內容。YAML 格式的處理則需匯入 yaml 模組，使用 yaml.safe_load() 進行解析。在實務應用中，資料驗證至關重要，需檢查資料型別、鍵值是否存在、數值範圍等，避免程式錯誤。同時，可以利用自定義異常類別，更精細地處理不同型別的錯誤，提升程式碼的健壯性。Mermaid 語法則提供簡潔易懂的方式繪製流程圖，清晰展現資料處理的步驟，有助於理解和溝通。

程式碼實作示例

以下是一個簡單的Python程式，示範如何讀取和處理JSON格式的文章大綱。

import json

# 示例JSON結構
json_data = '''
{
  "Introduction": [
    "a. 程式設計與程式語言的概覽",
    "b. 在今日科技驅動的世界中，程式設計的重要性"
  ],
  "Efficient Problem Solving": [
    "a. 程式設計如何幫助高效解決問題",
    "b. 程式設計在現代軟體開發中的應用"
  ]
}
'''

# 載入JSON資料
data = json.loads(json_data)

# 列印每個章節的內容
for section, content in data.items():
    print(f"### {section}")
    for point in content:
        print(f"- {point}")
    print()

內容解密：

此程式首先匯入必要的json模組。然後，它定義了一個JSON字串，包含文章的大綱結構。接下來，它使用json.loads()函式將JSON字串轉換為Python的字典。最後，它遍歷字典中的每個章節和其內容，將其以 Markdown 格式列印出來。這個過程展示瞭如何使用Python程式來讀取和處理JSON格式的資料。

JSON與YAML的應用及優點

在處理資料時，JSON和YAML是兩種常用的格式。瞭解它們的優點和應用場景對於開發人員來說是非常重要的。

JSON的優點

JSON（JavaScript Object Notation）是一種輕量級的資料交換格式，易於人們閱讀和編寫，也易於機器解析和生成。以下是JSON的一些優點：

簡潔: JSON的語法簡潔，易於理解和使用。
跨平臺: JSON是一種跨平臺的格式，可以被不同的程式語言和系統所支援。
易於解析: JSON資料可以被輕鬆地解析為原生資料型別，例如JavaScript中的物件或Python中的字典。

YAML的優點

YAML（YAML Ain’t Markup Language）是一種人們易於閱讀的序列化格式，常用於組態檔案和資料交換。以下是YAML的一些優點：

可讀性: YAML的設計目標是使其易於人們閱讀和編寫，減少了出錯的可能性。
簡潔性: YAML的語法簡潔，無需使用大括號、方括號和逗號等標點符號來表示結構。
易於編輯: YAML的簡潔語法和清晰的結構使其易於編輯和維護。

處理JSON和YAML資料

在處理JSON和YAML資料時，需要注意以下幾點：

驗證資料: 確保資料是有效的JSON或YAML格式，以避免解析錯誤。
使用適當的函式庫: 使用適當的函式庫或框架來解析和生成JSON和YAML資料，例如Python中的json和yaml函式庫。
注意安全性: 在解析來自未知源的JSON或YAML資料時，需要注意安全性問題，以避免攻擊。

內容解密：

在上述內容中，我們討論了JSON和YAML的優點和應用場景。同時，也提到了在處理這些資料格式時需要注意的幾點，包括驗證資料、使用適當的函式庫和注意安全性。透過這些內容，可以幫助開發人員更好地理解和應用JSON和YAML。

圖表翻譯：

下面是一個簡單的Mermaid圖表，示範了JSON和YAML之間的關係：

  graph LR
    A[JSON] -->|序列化|> B[字串]
    B -->|解析|> C[物件]
    C -->|轉換|> D[YAML]
    D -->|解析|> E[物件]
    E -->|序列化|> F[字串]
    F -->|轉換|> A

這個圖表展示了JSON和YAML之間的轉換過程，包括序列化、解析和轉換等步驟。透過這個圖表，可以更好地理解JSON和YAML之間的關係。

YAML 資料過濾與驗證

在處理 YAML 資料時，尤其是在使用語言模型（LLM）進行資料過濾和驗證時，需要考慮多種情況，以確保輸出的資料正確且符合預期的結構。以下將探討如何使用 LLM 進行 YAML 資料的過濾和驗證，同時提供 Python 指令碼的實作方法，以處理不同型別的 LLM 回應。

YAML 資料過濾

給定一個 YAML schema，目的是根據使用者查詢（User Query）過濾出符合 schema 的專案。例如，假設我們有以下 schema：

- item: Apple Slices
  quantity: 5
  unit: pieces
- item: Milk
  quantity: 1
  unit: gallon
- item: Bread
  quantity: 2
  unit: loaves
- item: Eggs
  quantity: 1
  unit: dozen

而使用者查詢為 “5 apple slices, and 2 dozen eggs."，我們需要傳回一個只包含符合查詢的專案的 YAML 檔案：

- item: Apple Slices
  quantity: 5
  unit: pieces
- item: Eggs
  quantity: 2
  unit: dozen

如果查詢中沒有匹配的專案，則傳回 “No Items”。

處理無效payload

當遇到完全無效的 payload 時，例如：

- item: Bananas
  quantity: 3
  unit: pieces

由於 “Bananas” 不在 schema 中，因此傳回 “No Items”。

Python 指令碼實作

為了處理不同的 LLM 回應情況，我們可以定義自訂異常類別，並實作一個 Python 指令碼來解析提議的 schema、執行自訂檢查以確保 YAML 回應可以安全地傳遞給下游軟體應用程式或微服務。

class InvalidResponse(Exception):
    pass

class InvalidItemType(Exception):
    pass

class InvalidItemKeys(Exception):
    pass

#... 定義其他異常類別

def parse_schema(schema):
    # 解析 schema 的實作
    pass

def check_response(response):
    # 執行自訂檢查以確保 YAML 回應的正確性
    pass

def filter_yaml_payload(user_query, schema):
    try:
        # 對使用者查詢進行過濾和驗證
        filtered_payload = []
        for item in user_query:
            if item['item'] in [i['item'] for i in schema]:
                filtered_payload.append(item)
        if not filtered_payload:
            return "No Items"
        return filtered_payload
    except InvalidResponse as e:
        # 處理異常的情況
        print(f"Invalid response: {e}")
    except InvalidItemType as e:
        print(f"Invalid item type: {e}")
    except InvalidItemKeys as e:
        print(f"Invalid item keys: {e}")

處理無效的 YAML 資料負載

在處理 YAML 資料時，可能會遇到無效的資料結構或內容。為了確保資料的正確性和完整性，需要實作一個自定義的驗證函式 validate_response，用於檢查輸入的 YAML 資料是否符合預期的結構和內容。

定義自定義異常類別

首先，定義三個自定義異常類別，分別代表無效的專案名稱、數量和單位：

class InvalidItemName(Exception):
    pass

class InvalidItemQuantity(Exception):
    pass

class InvalidItemUnit(Exception):
    pass

定義 YAML 結構

提供一個 YAML 結構作為字串，描述了預期的資料格式：

schema = """
- item: Apple Slices
  quantity: 5
  unit: pieces
- item: Milk
  quantity: 1
  unit: gallon
- item: Bread
  quantity: 2
  unit: loaves
- item: Eggs
  quantity: 1
  unit: dozen
"""

實作驗證函式

匯入 yaml 模組，並定義 validate_response 函式，用於驗證輸入的 YAML 資料：

import yaml

def validate_response(response, schema):
    # 解析 YAML 結構
    schema_parsed = yaml.safe_load(schema)
    maximum_quantity = 10

    # 檢查輸入的 response 是否為列表
    if not isinstance(response, list):
        raise InvalidResponse("Response is not a list")

    # 檢查列表中的每個專案是否為字典
    for item in response:
        if not isinstance(item, dict):
            raise InvalidItemType("Item is not a dictionary")

        # 檢查字典中是否包含 "item"、"quantity" 和 "unit" 鍵
        if not all(key in item for key in ("item", "quantity", "unit")):
            raise InvalidItemKeys("Item does not have the correct keys")

        # 檢查專案名稱、數量和單位是否有效
        if not isinstance(item["item"], str) or not item["item"].strip():
            raise InvalidItemName("Invalid item name")
        if not isinstance(item["quantity"], int) or item["quantity"] < 0 or item["quantity"] > maximum_quantity:
            raise InvalidItemQuantity("Invalid quantity")
        if not isinstance(item["unit"], str) or not item["unit"].strip():
            raise InvalidItemUnit("Invalid unit")

驗證函式使用示例

# 定義一個有效的 YAML 資料
valid_response = [
    {"item": "Apple Slices", "quantity": 5, "unit": "pieces"},
    {"item": "Milk", "quantity": 1, "unit": "gallon"}
]

# 驗證有效的 YAML 資料
try:
    validate_response(valid_response, schema)
    print("Valid response")
except Exception as e:
    print(f"Invalid response: {e}")

# 定義一個無效的 YAML 資料（缺少 "unit" 鍵）
invalid_response = [
    {"item": "Apple Slices", "quantity": 5}
]

# 驗證無效的 YAML 資料
try:
    validate_response(invalid_response, schema)
    print("Valid response")
except Exception as e:
    print(f"Invalid response: {e}")

在這個例子中，validate_response 函式會檢查輸入的 YAML 資料是否符合預期的結構和內容。如果資料有效，函式會傳回 None；否則，會引發相應的異常類別。

驗證物品清單的正確性

在處理物品清單時，確保每個專案的格式和內容正確是非常重要的。以下是驗證物品清單中每個專案是否符合要求的步驟：

驗證專案名稱、數量和單位的型別

首先，需要檢查每個專案的名稱、數量和單位是否為正確的型別。專案名稱和單位應該是字串，而數量應該是整數。

if not isinstance(item["item"], str):
    raise InvalidItemName("專案名稱不是字串")

if not isinstance(item["quantity"], int):
    raise InvalidItemQuantity("專案數量不是整數")

if not isinstance(item["unit"], str):
    raise InvalidItemUnit("專案單位不是字串")

驗證專案名稱是否在schema中

接下來，需要檢查專案名稱是否在預先定義的schema中。如果專案名稱不在schema中，則應該引發一個異常。

if item["item"] not in [x["item"] for x in schema_parsed]:
    raise InvalidItemName("專案名稱不在schema中")

驗證專案數量是否超過最大值

然後，需要檢查專案數量是否超過了最大允許值。如果數量超過最大值，則應該引發一個異常。

if item["quantity"] > maximum_quantity:
    raise InvalidItemQuantity(f"專案數量超過{maximum_quantity}")

驗證專案單位是否正確

最後，需要檢查專案單位是否為正確的單位。如果單位不在允許的單位列表中，則應該引發一個異常。

if item["unit"] not in ["pieces", "dozen"]:
    raise InvalidItemUnit("專案單位不是'pieces'或'dozen'")

測試邊界情況

為了確保驗證邏輯的正確性，需要測試一些邊界情況。以下是一些示例的LLM回應：

fake_response_1 = """
- item: Apple Slices
  quantity: 5
  unit: pieces
- item: Eggs
  quantity: 2
  unit: dozen
"""

fake_response_2 = """
# Updated yaml list
- item: Apple Slices
  quantity: 5
  unit: pieces
"""

fake_response_3 = """Unmatched"""

驗證函式

可以定義一個驗證函式來測試每個LLM回應是否符合要求。

def validate_response(response):
    # 將回應解析為yaml格式
    parsed_response = yaml.safe_load(response)
    
    # 驗證每個專案
    for item in parsed_response:
        # 驗證專案名稱、數量和單位的型別
        if not isinstance(item["item"], str):
            raise InvalidItemName("專案名稱不是字串")
        
        if not isinstance(item["quantity"], int):
            raise InvalidItemQuantity("專案數量不是整數")
        
        if not isinstance(item["unit"], str):
            raise InvalidItemUnit("專案單位不是字串")
        
        # 驗證專案名稱是否在schema中
        if item["item"] not in [x["item"] for x in schema_parsed]:
            raise InvalidItemName("專案名稱不在schema中")
        
        # 驗證專案數量是否超過最大值
        if item["quantity"] > maximum_quantity:
            raise InvalidItemQuantity(f"專案數量超過{maximum_quantity}")
        
        # 驗證專案單位是否正確
        if item["unit"] not in ["pieces", "dozen"]:
            raise InvalidItemUnit("專案單位不是'pieces'或'dozen'")

測試驗證函式

可以使用以下程式碼測試驗證函式：

try:
    validate_response(fake_response_1)
    print("fake_response_1驗證透過")
except Exception as e:
    print(f"fake_response_1驗證失敗：{e}")

try:
    validate_response(fake_response_2)
    print("fake_response_2驗證透過")
except Exception as e:
    print(f"fake_response_2驗證失敗：{e}")

try:
    validate_response(fake_response_3)
    print("fake_response_3驗證透過")
except Exception as e:
    print(f"fake_response_3驗證失敗：{e}")

圖表翻譯：

  flowchart TD
    A[開始] --> B[解析回應]
    B --> C[驗證專案]
    C --> D[驗證專案名稱、數量和單位的型別]
    D --> E[驗證專案名稱是否在schema中]
    E --> F[驗證專案數量是否超過最大值]
    F --> G[驗證專案單位是否正確]
    G --> H[輸出結果]

使用Mermaid語法建立簡單餐點訂購流程圖

以下是使用Mermaid語法建立的簡單餐點訂購流程圖：

  flowchart TD
    A[Choose food] --> B[Add food to cart]
    B --> C[Confirm cart]
    C --> D[Pay for meal]

圖表翻譯：

此流程圖展示了一個簡單的餐點訂購過程。首先，使用者需要選擇想要的餐點（Choose food）。接下來，使用者將選擇的餐點新增到購物車中（Add food to cart）。然後，使用者需要確認購物車中的內容（Confirm cart）。最後，使用者需要支付餐點費用（Pay for meal）。

內容解密：

這個流程圖使用Mermaid語法建立，展示了餐點訂購過程中的每一步。每個步驟都被表示為一個節點，節點之間的箭頭表示了流程的方向。這個流程圖可以幫助使用者瞭解餐點訂購過程中的每一步，並提供了一個清晰的視覺化表示。

多樣化格式生成

ChatGPT不僅可以生成JSON或YAML檔案，還可以支援許多其他資料格式。例如，它可以幫助建立Mermaid圖表或生成模擬CSV檔案。其多樣性還延伸到生成程式碼、對話和指令碼。

Mermaid語法介紹

Mermaid是一種類別似Markdown的指令碼語言，用於生成圖表、圖示和其他視覺化內容。它可以用於建立流程圖、類別圖、狀態圖等。

ChatGPT的多樣化應用

ChatGPT可以用於生成多種格式的內容，包括但不限於：

JSON和YAML檔案
Mermaid圖表
CSV檔案
程式碼和指令碼
對話和聊天內容

這些功能使得ChatGPT成為了一個強大且多樣化的工具，可以應用於各種不同的場景和需求。

從技術架構視角來看，本文演示瞭如何運用 Python 程式碼解析 JSON 格式資料，並探討了 JSON 與 YAML 的特性、應用場景以及在資料處理中的注意事項。深入分析程式碼範例，可以發現有效運用程式函式庫如 json 和 yaml，能簡化資料處理流程，提升開發效率。然而，程式碼的錯誤處理機制仍有待強化，例如針對不同型別的異常應設計更明確的處理邏輯，以提升程式碼的穩健性。此外，文章也示範瞭如何使用 Mermaid 語法建立流程圖，清晰地展現了資料處理流程和餐點訂購流程。展望未來，隨著資料格式的日益多元化，開發者需持續精程式式碼的適應性，才能有效處理不同格式的資料。對於追求高效能的系統，建議深入研究資料解析的效能瓶頸，並探索更最佳化的資料處理方案。玄貓認為，掌握程式語言的資料處理能力，並善用視覺化工具，將是未來開發者的核心競爭力。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。