NetworkX網路資料格式：屬性處理與進階應用

在網路分析的實務中，數據的表示與交換是銜接理論模型與應用分析的關鍵橋樑。不同的檔案格式承載著不同的設計哲學，反映了在數據豐富性、結構簡潔性與跨平台兼容性之間的權衡。本文從基礎的邊界列表與鄰接列表出發，闡述如何透過程式化方法解析邊界屬性，並對比其在表示單純拓撲結構時的效率。隨後，文章將探討 GEXF 與 JSON 這兩種現代化的數據交換格式。它們不僅擴展了屬性定義的範疇，納入了節點層級的資訊，更分別針對專業分析軟體整合與網頁前端應用進行了優化，體現了當代網路數據在不同應用場景下的多樣化需求。

邊界列表的進階屬性處理與鄰接列表格式

在前幾節的探討中，我們已經掌握了如何利用邊界列表（Edge List）格式來讀取包含權重和自定義屬性的網路。本節將進一步深入探討屬性處理的細節，並介紹另一種常用的網路檔案格式：鄰接列表（Adjacency List）。

`read_edgelist()` 的靈活屬性解析

當邊界列表中包含多個屬性時，使用 nx.read_edgelist() 函數配合 data 參數是處理這些屬性的標準方法。data 參數接收一個包含二元組（2-tuples）的列表，每個二元組定義了一個屬性的名稱及其對應的建構子（constructor）。

data 參數的結構：[('attribute_name1', constructor1), ('attribute_name2', constructor2), ...]
屬性名稱：NetworkX 會將指定的字串作為邊界的屬性名稱。
建構子：這是 Python 的類別或函數，用於將從檔案讀取的字串值轉換為所需的屬性類型。常見的建構子包括內建的 str、int、float 等。也可以是任何接受字串參數的物件建構子。

範例：讀取多重屬性並視覺化

假設我們有一個名為 attributes.edgelist 的檔案，內容如下：

# Example edge list network
# source target weight color

Winegroom Uptown 1 red
Winegroom Strawshop 5 orange
Uptown Strawshop 9 blue
Uptown Amazelake 6 green
Strawshop Province 3 orange

我們可以這樣讀取並視覺化這個網路，其中邊界的顏色由 color 屬性決定：

from pathlib import Path
import networkx as nx
import matplotlib.pyplot as plt

data_dir = Path('.') / 'data' # 假設 'data' 目錄存在於當前路徑下

# 讀取邊界列表，指定權重為浮點數，顏色為字串
try:
    G_attr_read = nx.read_edgelist(
        data_dir / 'attributes.edgelist',
        data=[('weight', float), ('color', str)] # 定義兩個邊界屬性
    )

    # 提取邊界的顏色屬性
    colors = [d['color'] for s, t, d in G_attr_read.edges(data=True)]
    # 提取邊界的權重屬性 (可選，用於調整視覺效果)
    weights = [d['weight'] for s, t, d in G_attr_read.edges(data=True)]

    # 計算節點佈局
    pos = nx.spring_layout(G_attr_read)

    # 繪製網路圖，使用顏色屬性進行視覺化
    nx.draw_networkx(
        G_attr_read,
        pos,
        width=[w * 0.5 for w in weights], # 根據權重調整邊寬
        edge_color=colors, # 使用 'color' 屬性設定邊界顏色
        with_labels=True,
        node_color='lightblue'
    )
    plt.gca().margins(0.15, 0.15)
    plt.title("Network with Attributes from Edge List")
    plt.show()

except FileNotFoundError:
    print(f"錯誤：找不到檔案 'data/attributes.edgelist'。請確保檔案存在於正確的路徑。")
except Exception as e:
    print(f"讀取或繪製時發生錯誤: {e}")

此代碼展示了如何靈活地讀取和利用邊界列表中的多重屬性，並將其應用於網路的視覺化。值得注意的是，即使檔案中包含了權重，如果我們使用 read_edgelist() 並在 data 參數中定義了 ('weight', ...)，權重也會被當作普通屬性處理，而不是由 read_weighted_edgelist() 專門處理。

鄰接列表（Adjacency List）格式

當我們只需要表示網路結構，而不需要為邊界指定額外屬性時，鄰接列表格式提供了一種更簡潔、緊湊的表示方法。

格式特點：
- 每行列出一個節點及其所有鄰接節點。
- NetworkX 會自動創建從該行第一個節點到其後所有節點的邊界。
- 邊界可以是有向或無向的，取決於讀取時的設定。
優勢：簡潔，通常比邊界列表更短。
限制：無法直接指定邊界屬性。

範例：地鐵系統的鄰接列表表示

延續地鐵系統的例子，其鄰接列表表示可能如下：

# Example adjacency list network
# source target1 target2 ...

Winegroom Uptown Strawshop
Uptown Strawshop Amazelake
Strawshop Province

在這個例子中：

第一行表示從 Winegroom 到 Uptown 和 Strawshop 的邊界。
第二行表示從 Uptown 到 Strawshop 和 Amazelake 的邊界。
第三行表示從 Strawshop 到 Province 的邊界。

NetworkX 可以使用 nx.read_adjlist() 函數來讀取這種格式的檔案。

from pathlib import Path
import networkx as nx
import matplotlib.pyplot as plt

data_dir = Path('.') / 'data' # 假設 'data' 目錄存在於當前路徑下

# 讀取鄰接列表檔案
try:
    # 預設讀取為無向圖
    G_adj = nx.read_adjlist(data_dir / 'example.adjlist')

    # 計算節點佈局
    pos = nx.spring_layout(G_adj)

    # 繪製網路圖
    nx.draw_networkx(
        G_adj,
        pos,
        with_labels=True,
        node_color='lightcoral',
        edge_color='gray'
    )
    plt.gca().margins(0.15, 0.15)
    plt.title("Network from Adjacency List")
    plt.show()

except FileNotFoundError:
    print(f"錯誤：找不到檔案 'data/example.adjlist'。請確保檔案存在於正確的路徑。")
except Exception as e:
    print(f"讀取或繪製時發生錯誤: {e}")

鄰接列表格式是表示簡單網路結構的有效方式，尤其適用於節點間關係不需額外屬性標記的場景。

看圖說話：

此圖示總結了「邊界列表的進階屬性處理與鄰接列表格式」，旨在說明邊界列表在處理複雜屬性時的靈活性，以及鄰接列表格式的簡潔性。流程開頭首先聚焦於「邊界列表的進階屬性處理與鄰接列表格式」，透過「分割」結構，詳細闡述了「read_edgelist() 的靈活屬性解析」（說明了 data 參數的結構 [('attr_name', constructor), ...]，強調了「處理多重屬性 (權重、顏色等)」，並提及了「範例：讀取多重屬性並視覺化」），接著探討了「鄰接列表 (Adjacency List) 格式」（介紹了其「簡潔、緊湊的格式」，「每行: node target1 target2 …」的結構，說明了「NetworkX 創建邊界」的方式，指出了「優勢：簡短」和「限制：無法指定邊界屬性」，並提及了「範例：地鐵系統的鄰接列表表示」及「nx.read_adjlist() 讀取」）。最後，圖示以「總結與未來方向」作結，強調了「邊界列表處理多屬性的靈活性」、「鄰接列表適用於簡單結構」，並預告了「下一章：更多檔案格式與程式碼創建」。

網路檔案格式的進階應用：GEXF 與 JSON

在前幾節中，我們深入探討了邊界列表（Edge List）和鄰接列表（Adjacency List）格式，了解了它們在表示網路結構和邊界屬性方面的能力。本節將介紹兩種更為強大且支援節點屬性的檔案格式：GEXF 和 JSON，它們在處理複雜網路數據和與其他工具整合方面扮演著重要角色。

GEXF 格式：整合節點與邊界屬性

GEXF (Graph Exchange XML Format) 是一種基於 XML 的檔案格式，它能夠完整地表示網路的節點、邊界及其所有屬性。這種格式的優勢在於其結構化和對豐富數據的支援，使其成為許多開源網路分析工具（如 Gephi）的通用交換格式。

特性：
- 支援節點和邊界的屬性（Attributes）。
- 基於 XML，結構清晰，易於解析。
- 與 Gephi 等視覺化工具高度整合。
NetworkX 支援：NetworkX 提供了 nx.write_gexf() 和 nx.read_gexf() 函數來讀寫 GEXF 檔案。

範例：將網路寫入 GEXF 格式

假設我們有一個包含節點和邊界屬性的 NetworkX 圖物件 G（例如，從之前的邊界列表讀取而來），我們可以將其寫入 GEXF 格式：

import networkx as nx
import sys # 用於將輸出導向標準輸出

# 假設 G 是一個已經定義好的 NetworkX 圖物件
# 例如，從前面的例子中讀取，並添加了節點屬性
# G.nodes[v]['abbreviation'] = v[0] for v in G.nodes

# 將 GEXF 輸出到標準輸出 (螢幕)
# 實際應用中，可以將 sys.stdout 替換為檔案路徑字串
try:
    nx.write_gexf(G, sys.stdout)
except Exception as e:
    print(f"寫入 GEXF 時發生錯誤: {e}")

輸出的 GEXF 檔案結構大致如下：

<?xml version='1.0' encoding='utf-8'?>
<graph defaultedgetype="undirected" mode="static" name="">
  <attributes class="edge" mode="static">
    <attribute id="1" title="color" type="string" />
    <!-- 可能還有其他邊界屬性 -->
  </attributes>
  <attributes class="node" mode="static">
    <attribute id="0" title="abbreviation" type="string" />
    <!-- 可能還有其他節點屬性 -->
  </attributes>
  <meta>
    <lastmodified>...</lastmodified>
  </meta>
  <nodes>
    <node id="NodeID1" label="NodeLabel1">
      <attvalues>
        <attvalue for="0" value="AttributeValue1" />
      </attvalues>
    </node>
    <!-- ... 更多節點 -->
  </nodes>
  <edges>
    <edge id="0" source="SourceNodeID" target="TargetNodeID" weight="1.0">
      <attvalues>
        <attvalue for="1" value="AttributeValue2" />
      </attvalues>
    </edge>
    <!-- ... 更多邊界 -->
  </edges>
</graph>

從結構中可以看出，GEXF 明確定義了屬性（attributes 標籤），然後在節點（nodes）和邊界（edges）中列出它們的值（attvalues）。這使得 GEXF 成為一個非常適合儲存和交換帶有豐富元數據的網路數據的格式。

JSON 格式：輕量級的數據交換與前端整合

JSON (JavaScript Object Notation) 是一種輕量級的資料交換格式，以其簡潔的語法和易讀性而廣受歡迎，尤其是在 Web 開發領域。NetworkX 支援多種基於 JSON 的格式來表示網路，這些格式通常比 GEXF 更為緊湊，並且非常適合與 JavaScript 函式庫（如 d3.js）結合使用，進行互動式網路視覺化。

特性：
- 語法簡潔，易於人類閱讀和編寫，也易於機器解析和生成。
- 與 JavaScript 生態系統無縫整合。
- 通常比 GEXF 更緊湊。
NetworkX 支援：NetworkX 提供了如 nx.node_link_data()、nx.node_link_graph() 等函數來處理 JSON 格式的網路數據。

範例：生成 JSON 格式的網路數據

使用 nx.node_link_data() 函數可以將 NetworkX 圖物件轉換為 JSON 格式的字典結構。

import networkx as nx

# 假設 G 是一個已經定義好的 NetworkX 圖物件
# 例如，包含節點和邊界屬性

# 生成 JSON 格式的網路數據
json_data = nx.node_link_data(G)

# 輸出 JSON 數據 (通常會進一步序列化為字串)
import json
print(json.dumps(json_data, indent=2)) # 使用 indent 參數美化輸出

輸出的 JSON 結構範例：

{
  "directed": false,
  "graph": {}, // 全局圖屬性
  "nodes": [
    {
      "id": "Winegroom",
      "abbreviation": "W" // 節點屬性
    },
    {
      "id": "Uptown",
      "abbreviation": "U"
    },
    // ... 更多節點
  ],
  "links": [ // 邊界列表
    {
      "color": "red",
      "source": "Winegroom",
      "target": "Uptown",
      "weight": 1.0 // 邊界屬性
    },
    {
      "color": "orange",
      "source": "Winegroom",
      "target": "Strawshop",
      "weight": 5.0
    },
    // ... 更多邊界
  ]
}

這種 JSON 格式將節點和邊界資訊清晰地分離，並將它們的屬性直接嵌入到相應的物件中，非常便於前端 JavaScript 程式碼解析和處理。

看圖說話：

此圖示總結了「網路檔案格式的進階應用：GEXF 與 JSON」，旨在介紹兩種支援豐富屬性的網路檔案格式及其應用場景。流程開頭首先聚焦於「網路檔案格式的進階應用」，透過「分割」結構，詳細闡述了「GEXF 格式：整合節點與邊界屬性」（說明其「XML-based 格式」、「支援節點與邊界屬性」、「與 Gephi 等工具整合」，提及了對應的 NetworkX 函數，並強調其「結構清晰，適合豐富元數據」），接著探討了「JSON 格式：輕量級的數據交換與前端整合」（介紹其「輕量級、易讀的格式」、「與 JavaScript 生態系統整合」、「適合 Web 開發與互動式視覺化」，提及了對應的 NetworkX 函數，並指出其「緊湊，便於前端處理」）。最後，圖示以「總結與未來方向」作結，強調了「GEXF: 豐富屬性與工具整合」、「JSON: 輕量、前端友好」，並預告了「下一章：從程式碼創建網路」。

縱觀現代數據專案的多元挑戰，從簡易的邊界列表到結構化的 GEXF 與 JSON 格式，其選擇不僅是技術路徑的差異，更反映了專案在不同生命週期的策略取捨。邊界列表與鄰接列表以其簡潔性，為初期探索與快速驗證提供了無可比擬的敏捷度。然而，這種便利性也潛藏著挑戰，當網路複雜度提升、需整合節點與邊界的多維屬性時，其表達能力的瓶頸便會浮現，可能在後期形成難以償還的技術債。

相對地，GEXF 與 JSON 格式雖然在建構初期需要更嚴謹的規劃，但其對豐富屬性的完整支持，為數據的長期擴充性與系統間的互操作性奠定了堅實基礎。它們將數據從單純的靜態存儲，轉化為能夠與 Gephi 深度分析工具或前端互動視覺化框架（如 d3.js）無縫對話的動態資產。未來，數據格式與應用場景的深度融合將是大勢所趨，格式本身即是定義數據生態系潛能的關鍵。

玄貓認為，對於重視專案長期價值與團隊協作效率的管理者而言，檔案格式的選擇是一項關鍵的架構決策，而非無足輕重的技術細節。在專案啟動之初，優先考量最終應用場景與未來擴展需求，選擇能夠承載完整數據脈絡的結構化格式，將是確保專案價值最大化的明智投資。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。

NetworkX網路資料格式：屬性處理與進階應用

邊界列表的進階屬性處理與鄰接列表格式

read_edgelist() 的靈活屬性解析

鄰接列表（Adjacency List）格式

看圖說話：

網路檔案格式的進階應用：GEXF 與 JSON

GEXF 格式：整合節點與邊界屬性

JSON 格式：輕量級的數據交換與前端整合

看圖說話：

玄貓 BlackCat

`read_edgelist()` 的靈活屬性解析