Python 建立文字向量儲存與 RAG 管道應用

利用 Python 和相關函式庫，可以有效地建立文字向量儲存，並應用於資訊檢索和分析。透過嵌入函式，將文字資料分割成 chunk 後轉換為向量，儲存於向量儲存中，方便後續的搜尋和分析。Deep Lake 提供了便捷的資料探索和查詢功能，可以有效管理和運用向量資料。實作空間探索搜尋引擎時，需考量使用者輸入處理、搜尋查詢的執行以及結果的格式化呈現。

在網頁應用中，Markdown 的轉換和顯示是常見的需求，需要正確處理 Markdown 語法以提供良好的使用者經驗。月球和火星探索是太空探索的重要方向，相關任務和挑戰值得深入研究。最後，文字相似度計算在 RAG 管道中扮演關鍵角色，可以使用餘弦相似度等方法評估文字之間的相似度，並結合 Sentence Transformers 等工具提升效能。透過以上技術的整合，可以打造更強大的資訊檢索和分析系統。

文字向量儲存的建立

要建立一個文字向量儲存，首先需要將文字分割成小塊，稱為「chunk」。這些chunk可以是單個詞彙、句子或段落。然後，使用嵌入函式（embedding function）將每個chunk轉換為一個數值向量。嵌入函式是一種將文字轉換為數值的方法，例如Word2Vec或BERT。

import numpy as np

# 定義嵌入函式
def embedding_function(text):
    # 將文字轉換為數值向量
    vector = np.array([1, 2, 3])  # 示例向量
    return vector

# 定義文字向量儲存
class VectorStore:
    def __init__(self):
        self.vectors = []
        self.metadata = []

    def add(self, text, embedding_function, metadata):
        # 將文字轉換為數值向量
        vector = embedding_function(text)
        self.vectors.append(vector)
        self.metadata.append(metadata)

# 建立文字向量儲存
vector_store = VectorStore()

# 載入文字資料
with open('llm.txt', 'r') as f:
    text = f.read()

# 將文字分割成chunk
CHUNK_SIZE = 1000
chunked_text = [text[i:i+CHUNK_SIZE] for i in range(0, len(text), CHUNK_SIZE)]

# 將chunk新增到文字向量儲存
for chunk in chunked_text:
    vector_store.add(chunk, embedding_function, {"source": "llm.txt"})

# 顯示文字向量儲存的摘要
print(vector_store.summary())

文字向量儲存的結構

文字向量儲存的結構通常包括以下幾個部分：

text: 文字內容
metadata: 文字的元資料，例如來源、作者等
embedding: 文字的嵌入向量
id: 文字的唯一標識

文字向量儲存的應用

文字向量儲存在資訊檢索、文字分類別、情感分析等領域中具有重要的應用價值。例如，可以使用文字向量儲存來實作搜尋引擎，或者用於文字分類別和情感分析等任務。

內容解密：

上述程式碼展示瞭如何建立一個文字向量儲存，並將其應用於資訊檢索和文字分析等領域。其中，embedding_function是用於將文字轉換為數值向量的函式，而VectorStore類別則是用於儲存和管理文字向量。

圖表翻譯：

  flowchart TD
    A[文字資料] --> B[分割成chunk]
    B --> C[嵌入函式]
    C --> D[文字向量儲存]
    D --> E[資訊檢索和文字分析]

上述流程圖展示了文字向量儲存的建立和應用過程。首先，將文字資料分割成小塊（chunk），然後使用嵌入函式將每個chunk轉換為數值向量，最後將這些向量儲存在文字向量儲存中，以便於資訊檢索和文字分析等任務。

使用 Deep Lake 進行資料探索和查詢

在上一節中，我們已經將資料儲存到 Deep Lake 中。現在，我們可以使用 Deep Lake 的功能來探索和查詢資料。

首先，我們需要載入資料集：

ds = deeplake.load(vector_store_path)

這會載入資料集，並提供一個路徑來視覺化和查詢資料。

資料大小估算

我們可以使用 size_approx() 方法來估算資料集的大小：

ds_size = ds.size_approx()

然後，我們可以將大小轉換為 megabytes 和 gigabytes：

ds_size_mb = ds_size / 1048576
print(f"Dataset size in megabytes: {ds_size_mb:.5f} MB")

ds_size_gb = ds_size / 1073741824
print(f"Dataset size in gigabytes: {ds_size_gb:.5f} GB")

這會輸出資料集的大小，以 megabytes 和 gigabytes 為單位。

Augmented Input Generation

Augmented Input Generation 是管道的第三個元件。它使用前兩個元件所產生的資料來增強使用者輸入。這個元件會處理使用者輸入，查詢向量儲存，增強輸入，並呼叫 GPT-4-Turbo。

首先，我們需要載入向量儲存：

vector_store_path = "hub://denis76/space_exploration_v1"
ds = deeplake.load(vector_store_path)

然後，我們可以定義一個嵌入函式來嵌入使用者輸入：

def embedding_function(texts, model="text-embedding-3-small"):
    if isinstance(texts, str):
        texts = [texts]
    texts = [t.replace("\n", " ") for t in texts]
    return [data.embedding for data in openai.embeddings.create(i

這個函式會將使用者輸入嵌入到向量空間中。

查詢和探索

現在，我們可以使用 Deep Lake 的功能來查詢和探索資料。例如，我們可以使用 query() 方法來查詢資料：

query_results = ds.query("SELECT * FROM dataset")

這會輸出查詢結果。

空間探索搜尋引擎的實作

在本文中，我們將實作一個簡單的搜尋引擎，以便使用者能夠查詢有關月球空間探索的資訊。為了確保輸入和向量資料集之間的完全相容性，我們使用與資料嵌入和儲存元件相同的嵌入模型：text-embedding-ada-002。

使用者輸入處理

我們可以使用互動式提示來取得使用者輸入，或者批次處理使用者輸入。在這個例子中，我們將處理一個已經輸入的使用者查詢，該查詢可以從使用者介面中取得。首先，我們定義一個函式來取得使用者輸入：

def get_user_prompt():
    # 請求使用者輸入查詢提示
    return input("請輸入您的查詢：")

然後，我們取得使用者的查詢提示：

user_prompt = "請告訴我有關月球空間探索的資訊"

搜尋查詢實作

接下來，我們將查詢提示插入搜尋查詢中，並將輸出儲存在 search_results 中：

search_results = vector_store.search(embedding_data=user_prompt,
                                    #... 其他引數...)

格式化輸出

最後，我們格式化使用者提示和搜尋結果以便顯示。首先，讓我們列印使用者提示：

print(user_prompt)

我們還可以包裝檢索的文字以獲得格式化的輸出：

def wrap_text(text, width=80):
    lines = []
    while len(text) > width:
        split_index = text.rfind(' ', 0, width)
        if split_index == -1:
            #... 處理無法找到空格的情況...
        lines.append(text[:split_index])
        text = text[split_index + 1:]
    lines.append(text)
    return '\n'.join(lines)

內容解密：

上述程式碼實作了使用者輸入處理、搜尋查詢和格式化輸出的功能。其中，get_user_prompt 函式用於取得使用者輸入，vector_store.search 函式用於執行搜尋查詢，而 wrap_text 函式用於格式化檢索的文字。

圖表翻譯：

以下是搜尋查詢流程的 Mermaid 圖表：

  flowchart TD
    A[使用者輸入] --> B[搜尋查詢]
    B --> C[格式化輸出]
    C --> D[顯示結果]

圖表解釋：

上述圖表描述了搜尋查詢流程的步驟。首先，系統接收使用者輸入，然後執行搜尋查詢，最後格式化輸出並顯示結果。

文字包裹與搜尋結果處理

在處理長文字時，經常需要將其包裹在指定的寬度內，以便於閱讀和顯示。Python 的 textwrap 模組提供了一個方便的方法來實作這一功能。

文字包裹函式

以下是使用 textwrap 模組實作的文字包裹函式：

import textwrap

def wrap_text(text, width=70):
    """
    將輸入的文字包裹在指定的寬度內。
    
    :param text: 輸入的文字。
    :param width: 包裹的寬度，預設為 70。
    :return: 包裹後的文字。
    """
    lines = []
    for line in text.splitlines():
        if len(line) <= width:
            lines.append(line)
        else:
            split_index = width
            while split_index < len(line):
                lines.append(line[:split_index])
                line = line[split_index:].strip()
                split_index = width
            lines.append(line)
    return '\n'.join(lines)

搜尋結果處理

在搜尋結果中，我們通常需要從多個結果中選擇最相關的那一個。以下是如何從搜尋結果中選擇最相關的結果並列印它：

import textwrap

# 假設搜尋結果已經排序，且最相關的結果在第一位
top_score = search_results['score'][0]
top_text = search_results['text'][0].strip()
top_metadata = search_results['metadata'][0]['source']

# 列印最相關的搜尋結果
print("Top Search Result:")
print(f"Score: {top_score}")
print(f"Source: {top_metadata}")
print("Text:")
print(wrap_text(top_text))

這樣就可以得到一個格式化的搜尋結果，包括評分、來源和包裹後的文字。

範例輸出

以下是執行上述程式碼後可能得到的輸出：

Top Search Result:
Score: 0.6016581654548645
Source: llm.txt
Text:
Exploration of space, planets, and moons "Space Exploration" redi
For the company, see SpaceX. For broader coverage of this topic,
Exploration. Buzz Aldrin taking a core sample of the Moon during

這表明我們已經成功地從搜尋結果中選擇了最相關的結果，並以一個易於閱讀的格式進行了顯示。

太空探索的新時代：月球和火星任務

太空探索在近年來取得了巨大的進展，尤其是在月球和火星任務方面。隨著技術的不斷發展和投資的增加，太空探索已經成為一個全球性的熱點。

月球探索

月球作為地球的自然衛星，長久以來都是太空探索的重要目標。近年來，各國太空機構和私人企業紛紛推出月球探索計畫，包括登月任務、月球基地建設等。這些計畫不僅有助於我們更好地瞭解月球的成分和地質結構，也為未來的深空探索提供了重要的基礎。

月球探索的挑戰

儘管月球探索取得了重大進展，但仍然存在著許多挑戰。例如，月球表面的極端溫度、缺乏大氣和輻射等問題，都對太空船和宇航員的安全構成了重大威脅。另外，月球資源的開發和利用也是一個需要解決的問題。

火星探索

火星作為太陽系中最像地球的行星，長久以來是太空探索的另一個重要目標。近年來，各國太空機構和私人企業紛紛推出火星探索計畫，包括火星著陸任務、火星基地建設等。這些計畫不僅有助於我們更好地瞭解火星的成分和地質結構，也為未來的深空探索提供了重要的基礎。

火星探索的挑戰

儘管火星探索取得了重大進展，但仍然存在著許多挑戰。例如，火星表面的極端溫度、缺乏大氣和輻射等問題，都對太空船和宇航員的安全構成了重大威脅。另外，火星資源的開發和利用也是一個需要解決的問題。

太空探索的未來將會更加輝煌。隨著技術的不斷發展和投資的增加，太空探索將會成為一個更加重要的領域。未來，太空探索將會涉及更多的行星和天體，包括木星、土星等。同時，太空探索也將會與其他領域緊密結合，包括科學研究、技術開發等。

圖表翻譯：

  graph LR
    A[太空探索] --> B[月球探索]
    A --> C[火星探索]
    B --> D[登月任務]
    C --> E[火星著陸任務]

此圖表展示了太空探索的兩個主要方向：月球探索和火星探索。每個方向都有其自己的具體任務和挑戰。

Markdown 轉換與顯示

在處理使用者回應時，需要檢測是否包含 Markdown 語法，以便進行適當的轉換和顯示。以下是實作此功能的步驟和程式碼。

步驟 1：定義 Markdown 模式

首先，定義一系列的正規表示式模式，用於匹配 Markdown 語法中的各個元素，如專案符號、粗體、斜體、連結、程式碼區塊等。

import re

markdown_patterns = [
    r"^\*+",  # 專案符號
    r"\*\*",  # 粗體
    r"_",  # 斜體
    r"\[.+\]\(.+\)",  # 連結
    r"-\s",  # 用於列表的連字號
    r"\`\`\`"  # 程式碼區塊
]

步驟 2：檢測 Markdown

使用 re.search() 函式來檢測使用者回應中是否存在任何 Markdown 模式。如果任何模式匹配，則假設回應是使用 Markdown 格式。

if any(re.search(pattern, response, re.MULTILINE) for pattern in markdown_patterns):
    # Markdown 被檢測到，轉換為 HTML 以獲得更好的顯示
    html_output = markdown.markdown(response)
    display(HTML(html_output))  # 使用 display(HTML()) 來渲染 HTML
else:
    # 沒有檢測到 Markdown，將文字包裝並作為純文字列印
    wrapper = textwrap.TextWrapper(width=80)
    wrapped_text = wrapper.fill(text=response)
    print("文字回應:")
    print("--------------------")
    print(wrapped_text)
    print("--------------------\n")

步驟 3：轉換和顯示

如果檢測到 Markdown，使用 markdown.markdown() 函式將其轉換為 HTML，並使用 display(HTML()) 函式來渲染 HTML，以獲得更好的顯示效果。如果沒有檢測到 Markdown，則使用 textwrap.TextWrapper 來包裝文字，並作為純文字列印。

月球探索與火星探索：科學目標與未來計畫

月球探索的歷史任務包括阿波羅任務和月球探測任務。阿波羅任務是NASA的一個重要計畫，旨在將人類送上月球。月球探測任務則著重於研究月球的表面和地下。

從科學的角度來看，月球探索的目標包括：

地質研究：瞭解月球的成分和結構。
資源利用：探索月球資源的開發潛力。

未來的計畫包括：

阿爾忒彌斯計畫：NASA的一個新計畫，旨在將人類送回月球。
國際合作：與其他太空機構合作，推動月球探索的進展。

火星探索也是一個重要的研究領域，包括：

機器人任務：NASA的好奇號和毅力號等機器人已經在火星上進行了廣泛的探索。
軌道器任務：各種軌道器已經對火星表面進行了詳細的對映。

評估輸出的品質是一個重要的步驟，可以使用餘弦相似度（cosine similarity）來衡量使用者輸入和生成AI模型輸出的相似度。以下是計算餘弦相似度的步驟：

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def calculate_cosine_similarity(text1, text2):
    vectorizer = TfidfVectorizer()
    tfidf = vectorizer.fit_transform([text1, text2])
    similarity = cosine_similarity(tfidf[0:1], tfidf[1:2])
    return similarity

內容解密：

上述程式碼定義了一個函式calculate_cosine_similarity，用於計算兩個文字之間的餘弦相似度。這個函式使用TfidfVectorizer將輸入文字轉換為TF-IDF向量，然後使用cosine_similarity計算向量之間的餘弦相似度。

圖表翻譯：

  flowchart TD
    A[輸入文字] --> B[TF-IDF向量化]
    B --> C[餘弦相似度計算]
    C --> D[輸出相似度]

圖表說明：

上述流程圖描述了計算餘弦相似度的步驟。首先，輸入文字被轉換為TF-IDF向量，然後計算向量之間的餘弦相似度，最後輸出相似度結果。

文字相似度計算與RAG管道的實作

在前面的章節中，我們探討瞭如何使用RAG（Retrieval-Augmented Generation）管道來增強生成式AI的效能。其中，文字相似度計算是一個重要的步驟，用於評估使用者輸入和生成式AI的回應之間的相似度。在這個章節中，我們將更深入地探討文字相似度計算的方法，並實作一個RAG管道。

文字相似度計算方法

文字相似度計算有多種方法，包括餘弦相似度（Cosine Similarity）、Jaccard相似度等。在這裡，我們使用餘弦相似度作為示例。餘弦相似度是透過計算兩個向量之間的餘弦值來評估相似度的。

from sklearn.metrics.pairwise import cosine_similarity

def calculate_cosine_similarity(text1, text2):
    # 將文字轉換為向量
    vector1 = tfidf.transform([text1])
    vector2 = tfidf.transform([text2])
    
    # 計算餘弦相似度
    similarity = cosine_similarity(vector1, vector2)
    
    return similarity[0][0]

RAG管道的實作

RAG管道由三個部分組成：檔案嵌入、查詢生成和生成式AI。以下是RAG管道的實作：

# 檔案嵌入
def embed_documents(documents):
    # 將檔案轉換為嵌入
    embeddings = []
    for document in documents:
        embedding = model.encode(document)
        embeddings.append(embedding)
    
    return embeddings

# 查詢生成
def generate_query(user_input):
    # 將使用者輸入轉換為查詢
    query = model.encode(user_input)
    
    return query

# 生成式AI
def generate_response(query, embeddings):
    # 將查詢和嵌入傳遞給生成式AI模型
    response = gpt4.generate(query, embeddings)
    
    return response

Sentence Transformers的應用

Sentence Transformers是一種可以捕捉深層語義關係的嵌入方法。以下是使用Sentence Transformers計算文字相似度的示例：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('all-MiniLM-L6-v2')

def calculate_cosine_similarity_with_embeddings(text1, text2):
    # 將文字轉換為嵌入
    embeddings1 = model.encode(text1)
    embeddings2 = model.encode(text2)
    
    # 計算餘弦相似度
    similarity = cosine_similarity([embeddings1], [embeddings2])
    
    return similarity[0][0]

1. 將文字轉換為高維向量以加速 RAG 中的檢索？

是的，嵌入（embeddings）可以將文字轉換為高維向量，以便在檢索增強生成（RAG）中進行更快速的檢索。

2. 關鍵字搜尋是否比嵌入更有效地檢索詳細的語義內容？

否，嵌入通常比關鍵字搜尋更有效地檢索詳細的語義內容，因為它們可以捕捉文字之間的語義關係。

3. 是否建議將 RAG 管道分離為獨立元件？

是的，將 RAG 管道分離為獨立元件可以提高系統的可擴充套件性和維護性。

4. RAG 管道是否只由兩個主要元件組成？

否，RAG 管道通常由多個元件組成，包括嵌入、檢索和生成等。

5. Activeloop Deep Lake 是否可以處理嵌入和向量儲存？

是的，Activeloop Deep Lake 是一個可以處理嵌入和向量儲存的工具。

6. 本章節是否使用 OpenAI 的 text-embedding-3-small 模型生成嵌入？

未提及本章節使用哪個模型生成嵌入。

7. 資料嵌入是否在 RAG驅動系統中可見且可追蹤？

是的，資料嵌入在 RAG 驅動系統中是可見且可追蹤的。

8. RAG 管道是否可以在不分離為獨立元件的情況下順暢執行？

否，RAG 管道通常需要分離為獨立元件才能順暢執行。

隨著大語言模型(LLM)的快速發展，如何有效利用其能力構建實際應用成為關注焦點。本文深入探討了根據向量資料函式庫的RAG（Retrieval-Augmented Generation）技術管道，並以建立太空探索領域的搜尋引擎為例，詳細闡述了從資料處理、嵌入生成、向量儲存到查詢及結果呈現的完整流程。分析了使用嵌入向量進行語義搜尋的優勢，以及如何利用Deep Lake等工具管理向量資料函式庫，並透過文字包裹、相似度計算等技術提升使用者經驗。同時也觸及了月球與火星探索等具體應用場景，展現了RAG技術的廣泛應用潛力。技術限制深析顯示，嵌入模型的選擇、資料集的規模和品質，以及查詢策略的最佳化都將直接影響搜尋結果的準確性和效率。玄貓認為，RAG技術代表了下一代搜尋引擎和知識管理系統的重要發展方向，值得技術團隊深入研究並積極探索其商業價值。隨著向量資料函式庫技術和LLM的持續演進，預見根據RAG的應用將在更多領域展現其變革性力量。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。