Python 建立多模態模組化 RAG 系統與效能評估

隨著資料量的爆炸式增長，如何有效地組織和查詢資訊成為一個關鍵挑戰。本文將深入探討如何利用 Python 和先進的 AI 技術，構建一個多模態模組化 RAG 系統，以實作高效的資訊檢索和生成。我們將整合 LlamaIndex、Deep Lake 和 OpenAI 等技術，並以無人機技術應用為例，展示如何處理多模態資料，並評估系統效能。

透過 LlamaIndex，我們可以輕鬆地建立不同型別的索引，例如向量索引、樹索引、列表索引和關鍵字索引，並根據資料特性選擇最合適的索引策略。Deep Lake 則提供了一個高效的向量儲存方案，可以儲存和管理大量的向量嵌入。OpenAI 的大語言模型（LLM）則負責生成自然語言回應，並提供多模態處理能力。在效能評估方面，我們將使用餘弦相似度和執行時間等指標，來評估查詢引擎的準確性和效率，並提供最佳化建議。

Cosine 相似度指標

Cosine 相似度是一種用於評估兩個向量之間相似性的指標，它的值域在 [-1, 1] 之間，1 表示完全相似，-1 表示完全不相似。這裡，我們使用 sklearn 和 sentence-transformers 函式庫來計算 Cosine 相似度。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')

def calculate_cosine_similarity_with_embeddings(text1, text2):
    embeddings1 = model.encode(text1)
    embeddings2 = model.encode(text2)
    similarity = cosine_similarity([embeddings1], [embeddings2])
    return similarity[0][0]

向量儲存索引（Vector Store Index）

向量儲存索引是一種索引結構，它使用向量嵌入來表示檔案，並支援高效的相似性查詢。這裡，我們使用 LlamaIndex 函式庫來建立一個向量儲存索引。

vector_store_index = VectorStoreIndex.from_documents(documents)
print(type(vector_store_index))

查詢引擎

現在，我們需要一個查詢引擎來從向量儲存索引中查詢和合成檔案。這裡，我們使用 OpenAI 模型作為查詢引擎。

vector_query_engine = vector_store_index.as_query_engine(similarity)

引數設定

在建立查詢引擎之前，我們需要設定一些引數，例如 k、temp 和 mt。

k=3：查詢引擎將傳回前 3 個最可能的回應。
temp=0.1：一個低溫度將鼓勵查詢引擎產生精確的結果。
mt=1024：查詢引擎將限制輸出的 token 數量為 1024。

k = 3
temp = 0.1
mt = 1024

執行查詢引擎並處理結果

在定義了查詢引擎的引數後，我們可以對資料集進行查詢並生成回應。

查詢回應和來源

讓我們定義一個函式來管理查詢並傳回有關回應內容的資訊：

import pandas as pd
import textwrap

def 處理查詢(輸入查詢):
    回應 = 向量查詢引擎.查詢(輸入查詢)
    
    # 選擇性：列印格式化的回應檢視（移除不必要的部分）
    print(textwrap.fill(str(回應), 100))
    
    節點資料 = []
    
    for 節點和評分 in 回應.來源節點:
        節點 = 節點和評分.節點
        
        節點資訊 = {
            '節點 ID': 節點.id_,
            '評分': 節點和評分.評分,
            '文字': 節點.文字
        }
        
        節點資料.append(節點資訊)
    df = pd.DataFrame(節點資料)
    
    # 代替列印，傳回 DataFrame 和回應
    return df, 回應

處理查詢(使用者輸入) 執行查詢使用向量查詢引擎並處理結果成結構化格式。函式接受輸入查詢，檢索相關資訊，並使用查詢引擎在 pandas DataFrame 中組織節點 ID、評分、檔案路徑、檔案名稱和文字等欄位。
現在，程式碼將呼叫查詢：
```python
import time

# 啟動計時器
開始時間 = time.time()
df, 回應 = 處理查詢(使用者輸入)

# 停止計時器
結束時間 = time.time()

# 計算和列印執行時間

內容解密：

這個程式碼片段定義了一個名為 處理查詢 的函式，負責管理查詢並傳回有關回應內容的資訊。函式使用向量查詢引擎執行查詢，然後處理結果成結構化格式。結果包括節點 ID、評分、文字等欄位，並以 pandas DataFrame 的形式傳回。

圖表翻譯：

  flowchart TD
    A[啟動查詢] --> B[執行查詢]
    B --> C[處理結果]
    C --> D[傳回 DataFrame 和回應]
    D --> E[計算執行時間]

這個流程圖描述了程式碼的執行流程，從啟動查詢到傳回結果和計算執行時間。每個步驟都對應到程式碼中的特定部分，展示了查詢引擎如何執行查詢並傳回結果。

最佳化查詢效能與節點分析

在進行查詢時，瞭解查詢執行時間對於評估系統效能至關重要。以下程式碼展示瞭如何計算查詢執行時間：

elapsed_time = end_time - start_time
print(f"Query execution time: {elapsed_time:.4f} seconds")

此外，使用 to_markdown 方法可以將 DataFrame 輸出為 Markdown 格式，方便檢視：

print(df.to_markdown(index=False, numalign="left", stralign="left"))

節點分析

在進行查詢後，系統會傳回一個包含節點資訊的回應。每個節點都有一個唯一的 ID，可以用於追蹤原始檔案，即使索引引擎重新索引資料集。以下程式碼展示瞭如何取得第一個節點的 ID：

nodeid = response.source_nodes[0].node_id
print(nodeid)

輸出：

4befdb13-305d-42db-a616-5d9932c17ac8

節點文字內容

可以使用 get_text 方法取得節點所包含的文字內容：

print(response.source_nodes[0].get_text())

輸出：

['These activities can be carried out with different approaches t']

最佳化Chunking

系統可以自動選擇 chunk 大小，也可以手動設定。在這個例子中，程式碼會自動確定 chunk 大小：

for node_with_score in response.source_nodes:
    node = node_with_score.node
    chunk_size = len(node.text)
    print(f"Node ID: {node.id_}, Chunk Size: {chunk_size} characters")

輸出：

Node ID: 83a135c6-dddd-402e-9423-d282e6524160, Chunk Size: 4417 characters
Node ID: 7b7b55fe-0354-45bc-98da-0a715ceaaab0, Chunk Size: 1806 characters
Node ID: 18528a16-ce77-46a9-bbc6-5e8f05418d95, Chunk Size: 3258 characters

效能指標

可以實作一個根據查詢準確性和執行時間的效能指標。以下程式碼計算並列印查詢的效能指標：

import numpy as np

def info_metrics(response):
    scores = [node.score for node in response.source_nodes if node.score is not None]
    # Calculate the performance (handling None scores)
    average_score = np.mean(scores)
    # Divide the weighted average by 玄貓 (assuming 玄貓 is a constant)
    performance_metric = average_score / 玄貓
    return performance_metric

print(info_metrics(response))

圖表翻譯：

  graph LR
    A[查詢輸入] --> B[查詢執行]
    B --> C[節點分析]
    C --> D[效能指標計算]
    D --> E[輸出結果]

此圖表展示了查詢過程從輸入到輸出的流程，包括查詢執行、節點分析和效能指標計算。

效能評估指標

在評估查詢引擎的效能時，我們需要考慮多個因素，包括查詢執行時間、平均分數和效能指標。效能指標是透過計算加權平均分數並除以查詢執行時間來獲得的。這個指標可以用來比較不同的查詢引擎的效能。

樹狀索引查詢引擎

樹狀索引是一種階層結構，用於高效地管理和查詢文字檔案。它將檔案組織成樹狀結構，其中更高層次的節點包含更廣泛的摘要，較低層次的節點包含更詳細的資訊。樹狀索引查詢引擎可以快速地查詢大量檔案集。

實作樹狀索引

樹狀索引可以透過以下程式碼實作：

tree_index = TreeIndex.from_documents(documents)

這行程式碼從檔案集建立了一個樹狀索引。

查詢樹狀索引

要查詢樹狀索引，我們需要建立一個查詢引擎：

tree_query_engine = tree_index.as_query_engine(similarity_top_k=...)

然後，我們可以使用以下程式碼查詢樹狀索引：

response = tree_query_engine.query(user_input)

這行程式碼會傳回查詢結果。

測量查詢執行時間

我們可以使用以下程式碼測量查詢執行時間：

start_time = time.time()
response = tree_query_engine.query(user_input)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"Query execution time: {elapsed_time:.4f} seconds")

這段程式碼會列印預出查詢執行時間。

效能評估

最終，我們可以使用以下程式碼評估查詢引擎的效能：

perf = np.average(scores, weights=weights) / elapsed_time
print(f"Performance metric: {perf:.4f}")

這行程式碼會列印預出效能指標。

無人機車輛識別技術

無人機（Drones）在現代科技中扮演著越來越重要的角色，其中一個關鍵應用是使用電腦視覺技術來識別車輛。這項技術涉及在數字影像和影片中檢測語義物體的例項。透過在像COCO這樣的資料集上訓練物體檢測模型，無人機可以使用其攝像頭捕捉的實時影像來檢測車輛。

效能評估

為了評估無人機車輛識別系統的效能，我們可以使用餘弦相似度作為一種效能指標。這個指標可以計算使用者輸入和系統回應之間的相似度，從而評估系統的準確性和回應時間。

import numpy as np

def calculate_cosine_similarity_with_embeddings(user_input, response):
    # 將使用者輸入和系統回應轉換為向量
    user_vector = np.array([1, 2, 3])  # 示例使用者輸入向量
    response_vector = np.array([4, 5, 6])  # 示例系統回應向量
    
    # 計算餘弦相似度
    cosine_similarity = np.dot(user_vector, response_vector) / (np.linalg.norm(user_vector) * np.linalg.norm(response_vector))
    
    return cosine_similarity

# 示例使用者輸入和系統回應
user_input = "無人機車輛識別"
response = "使用電腦視覺技術來識別車輛"

# 計算餘弦相似度
similarity_score = calculate_cosine_similarity_with_embeddings(user_input, response)

print(f"餘弦相似度：{similarity_score:.3f}")

執行時間和效能指標

系統的執行時間也是評估其效能的一個重要方面。透過計算系統回應的時間，我們可以評估其效率和可靠性。

import time

# 記錄開始時間
start_time = time.time()

# 執行系統回應
response = "使用電腦視覺技術來識別車輛"

# 記錄結束時間
end_time = time.time()

# 計算執行時間
elapsed_time = end_time - start_time

print(f"執行時間：{elapsed_time:.4f} 秒")

整體效能評估

為了全面評估系統的效能，我們可以結合餘弦相似度和執行時間兩個指標。

performance = similarity_score / elapsed_time

print(f"效能指標：{performance:.4f}")

這個效能指標可以幫助我們評估系統的整體效能，包括其準確性和效率。透過不斷最佳化和改進系統，我們可以提高其效能指標，從而提供更好的服務。

瞭解查詢引擎的效能評估

在評估查詢引擎的效能時，需要考慮多個因素，包括查詢執行時間、相似度評分和整體效能指標。下面，我們將探討如何使用列表查詢引擎、樹索引查詢引擎和關鍵字索引查詢引擎，並計算其效能指標。

列表查詢引擎

列表查詢引擎是一種基本的查詢方法，透過遍歷檔案列表來查詢相關資訊。以下是使用列表查詢引擎的示例：

start_time = time.time()
response = list_query_engine.query(user_input)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"查詢執行時間：{elapsed_time:.4f} 秒")

列表查詢引擎的查詢執行時間可能會較長，因為它需要遍歷整個檔案列表。

樹索引查詢引擎

樹索引查詢引擎是一種更高效的查詢方法，透過建立樹狀索引來加速查詢過程。以下是使用樹索引查詢引擎的示例：

start_time = time.time()
response = tree_query_engine.query(user_input)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"查詢執行時間：{elapsed_time:.4f} 秒")

樹索引查詢引擎的查詢執行時間通常會較列表查詢引擎短。

關鍵字索引查詢引擎

關鍵字索引查詢引擎是一種特殊的索引，透過提取檔案中的關鍵字並組織成表格結構來加速查詢過程。以下是使用關鍵字索引查詢引擎的示例：

keyword_index = KeywordTableIndex.from_documents(documents)

關鍵字索引查詢引擎可以快速查詢相關資訊，但需要事先建立關鍵字索引。

效能評估

效能評估是指計算查詢引擎的整體效能指標，包括查詢執行時間、相似度評分和其他因素。以下是計算效能指標的示例：

similarity_score = calculate_cosine_similarity_with_embeddings(user_input, response)
performance = similarity_score / elapsed_time
print(f"效能指標：{performance:.4f}")

效能指標可以幫助我們評估查詢引擎的整體效能，並選擇最合適的查詢方法。

圖表翻譯：

  flowchart TD
    A[開始] --> B[選擇查詢引擎]
    B --> C[列表查詢引擎]
    B --> D[樹索引查詢引擎]
    B --> E[關鍵字索引查詢引擎]
    C --> F[計算查詢執行時間]
    D --> F
    E --> F
    F --> G[計算相似度評分]
    G --> H[計算效能指標]
    H --> I[輸出結果]

此圖表展示了查詢引擎的選擇和效能評估過程。

檔案索引和查詢引擎的效能評估

在前面的章節中，我們探討了根據索引的搜尋對於RAG（Retrieval-Augmented Generation）系統的變革性影響，並介紹了一個關鍵的進展：全追蹤性（full traceability）。這使得檔案成為包含資料塊的節點，查詢的源頭可以追溯到原始資料。索引還提高了檢索速度，這在資料集體積增加的情況下至關重要。

根據關鍵字的查詢引擎

首先，我們定義了一個根據關鍵字的查詢引擎，使用keyword_index.as_query_engine()方法。然後，我們執行查詢並測量其執行時間。結果表明，查詢引擎能夠快速地產生回應。

keyword_query_engine = keyword_index.as_query_engine(similarity_metric)
start_time = time.time()
response = keyword_query_engine.query(user_input)
end_time = time.time()
elapsed_time = end_time - start_time
print(f"查詢執行時間：{elapsed_time:.4f} 秒")

效能指標

為了評估查詢引擎的效能，我們使用餘弦相似度分數和執行時間作為指標。結果如下：

similarity_score = calculate_cosine_similarity_with_embeddings(user_input, response)
print(f"餘弦相似度分數：{similarity_score:.3f}")
print(f"查詢執行時間：{elapsed_time:.4f} 秒")
performance = similarity_score / elapsed_time
print(f"效能指標：{performance:.4f}")

結果分析

結果表明，根據關鍵字的查詢引擎能夠快速地產生回應，且效能指標令人滿意。然而，每個專案都有其自己的資料集複雜性和機器效能可用性，因此難以對不同的索引型別和檢索策略進行直接比較。此外，由於所使用的隨機演算法，執行時間可能會從一次執行到另一次執行有所不同。

多模態模組化RAG技術深入剖析

隨著人工智慧（AI）技術的不斷演進，新的時代正在到來。LlamaIndex、Deep Lake和OpenAI等技術的整合，為RAG驅動的生成式AI管道帶來了新的機遇。最先進的AI模型，如OpenAI GPT-4、Hugging Face和Cohere，已經成為這個管道中無縫的元件，就像電腦中的GPU一樣。

技術整合與創新

玄貓將為您展示如何將這些複雜的技術無縫整合，以提升先進索引和檢索系統的建立。AI實施的複雜性正在改變我們組織單獨管道和功能的方式，特別是在團隊平行工作於大規模專案和涉及大量資料的情況下。每個生成的回應都可以追溯到其源頭，提供了對所用資訊的起源和準確性的清晰可見性。

RAG技術與實作

在整個章節中，我們將介紹構建這些系統所需的基本工具，包括向量儲存、資料集、分塊、嵌入、節點建立、排名和索引方法。同時，我們還實作了LlamaIndex框架、Deep Lake向量儲存和OpenAI的模型。此外，我們構建了一個Python程式，用於收集資料並新增關鍵的後設資料，以確定資料集中每個資料塊的起源。

索引技術與應用

索引（向量、樹、列表和關鍵字型別）在給予我們對生成式AI應用的更大控制權方面發揮著關鍵作用，使得精確調整和改進成為可能。我們透過Python筆記本中的詳細演練，引導您完成設定向量儲存、進行高階查詢以及確保AI生成回應的可追溯性等過程。同時，我們還引入了根據回應品質和取得時間的指標，來評估生成式AI應用的效能。

多模態資料

在下一章中，我們將在資料集中包含多模態資料，並擴充套件多模組RAG。透過探索無人機技術與LLM的結合，我們將看到構建堅固AI管道所需的新技能，以及無人機技術如何涉及電腦視覺和多模態節點。

問題與答案

索引是否能夠提高檢索增強生成式AI的精確度和速度？

索引是否能夠為RAG輸出提供可追溯性？

對於大型資料集，索引基礎搜尋是否比向量基礎搜尋慢？

LlamaIndex是否能夠與Deep Lake和OpenAI無縫整合？

樹、列表、向量和關鍵字索引是否是唯一的索引型別？

關鍵字索引是否依賴語義理解來檢索資料？

LlamaIndex是否能夠自動處理分塊和嵌入？

後設資料增強是否對於確保RAG生成輸出的可追溯性至關重要？

實時更新是否能夠輕鬆地應用於索引基礎搜尋系統？

餘弦相似度是否是一種用於評估查詢準確性的指標？

多模態模組化RAG技術

在這個章節中，我們將使用模組化RAG技術來建立一個系統，該系統可以處理不同型別的資料和任務。例如，一個模組可以使用大語言模型（LLM）來處理文字資訊，而另一個模組可以管理影像資料，識別和標記影像中的物體。這項技術可以應用於無人機領域，無人機已經成為各個行業的重要工具，提供了空中攝影、農業監測和搜尋救援等功能。

多模態資料

多模態資料結合了不同的資訊形式，例如文字、影像、音訊和影片，以豐富資料分析和解釋。模組化RAG系統使用不同的模組來處理不同型別的資料和任務。每個模組都具有專門的功能，例如一個模組專注於文字，另一個模組專注於影像。

多源檢索

我們將使用兩個資料集：一個包含無人機的文字資訊，另一個包含無人機影像和標籤。 chúng tôi 將使用 Deep Lake 來處理多模態資料，LlamaIndex 來進行索引和檢索，以及 OpenAI 的 LLM 來生成查詢結果。

增強多模態輸出

我們將新增多模態增強輸出，包括文字和影像。最終，我們將建立效能指標來評估文字回應，並引入影像識別度量標準，使用 OpenAI 的多模態 LLM（MMLLM）。

多模態模組化RAG 工作流程

以下是多模態模組化RAG 工作流程的概覽：

多模態資料: 結合文字、影像、音訊和影片等不同資訊形式。
模組化RAG: 使用不同的模組來處理不同型別的資料和任務。
多源檢索: 使用兩個資料集：一個包含無人機的文字資訊，另一個包含無人機影像和標籤。
增強多模態輸出: 新增多模態增強輸出，包括文字和影像。
效能指標: 建立效能指標來評估文字回應，並引入影像識別度量標準。

多模態模組化 RAG 系統

本章節目的是建立一個針對無人機技術的教育性多模態模組化 RAG 問答系統。您可以依靠前幾章節中實作的功能，例如第 2 章中的 Deep Lake 向量儲存、第 3 章中的 RAG Embedding Vector Stores 和 LlamaIndex 等。

多模態模組化 RAG 生態系統

本章節將探討多模態、多源、模組化 RAG 生態系統，如圖 4.1 所示。每個階段都以玄貓為字首，並使用斜體標題和子標題。

載入 LLM 資料集

(D4) 載入在第 3 章中建立的 LLM 資料集，該資料集包含無人機的文字資料。

初始化 LLM 查詢引擎

(D4) 使用 VectorStoreIndex 初始化 LLM 查詢引擎，並設定建立的索引為查詢引擎，該過程與 (G4) 重疊，因為它同時作為檢索器和生成器，使用 OpenAI GPT 模型。

定義使用者輸入

(G1) 定義多模態模組化 RAG 的使用者輸入，既適用於 LLM 查詢引擎（針對文字資料集），也適用於多模態查詢引擎（針對 VisDrone 資料集）。

從技術架構視角來看，本文深入淺出地介紹瞭如何構建根據LlamaIndex、Deep Lake和OpenAI的模組化RAG系統，並逐步引導讀者從單模態文字查詢引擎拓展至多模態場景。文章涵蓋了向量儲存、索引技術、查詢引擎最佳化以及效能評估等關鍵環節，展現了構建高效RAG管道的完整流程。技術堆疊的各層級協同運作中體現了模組化設計的優勢，允許開發者根據需求靈活選擇和組合不同的模組，例如根據關鍵字、向量或樹狀結構的索引，以及OpenAI的LLM或多模態LLM。文章也指出了不同索引型別和檢索策略的效能比較難以標準化，受限於資料集複雜性和機器效能等因素。此外，文中提供的效能評估方法，結合了餘弦相似度、執行時間和效能指標，為系統最佳化提供了量化依據。展望未來，隨著多模態資料的整合和MMLLM的應用，RAG系統將具備更強大的理解和生成能力，為無人機技術等領域帶來更多創新應用。玄貓認為，模組化RAG系統代表了未來知識檢索和生成的重要方向，值得技術團隊深入研究和實踐，尤其是在處理複雜多模態資料和構建可追溯、可解釋AI系統方面。對於資源有限的團隊，建議優先關注向量儲存和LLM的整合，逐步探索多模態資料和模組化設計的應用。接下來的幾年，將是RAG技術從研究原型走向成熟產品的關鍵時期，密切關注LlamaIndex等框架的發展，將有助於抓住這一技術浪潮的機遇。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。