解鎖遷移學習：以零樣本分類別為例

身為一個技術愛好者，我經常探索各種前沿技術，而遷移學習一直是我關注的焦點之一。它巧妙地利用現有知識，解決新的挑戰，就像一位經驗豐富的廚師，將精湛的刀工和火候運用到不同的菜系中。

在大語言模型盛行之前，遷移學習的重要性更是不言而喻。訓練深度學習模型需要海量資料和強大的計算資源，這對許多開發者來説是難以企及的。遷移學習允許我們站在巨人的肩膀上，利用預訓練模型，只需針對特定任務進行微調，就能事半功倍。

今天，我想分享的是如何使用 Hugging Face Transformers 函式庫，實作遷移學習中的一種特殊應用：零樣本分類別。

零樣本分類別：預訓練模型的新技能

零樣本分類別，顧名思義，就是在沒有任何訓練資料的情況下，對新的類別進行分類別。這聽起來像是天方夜譚，但遷移學習讓它成為可能。預訓練模型已經從大量的文字資料中學習到了豐富的語言知識，即使沒有見過新的類別，也能根據其描述進行合理的推斷。

Python 程式碼實戰：Transformers 函式庫的應用

讓我們透過一個簡單的程式碼範例，看看如何使用 Hugging Face Transformers 函式庫實作零樣本分類別：

from transformers import pipeline

classifier = pipeline(
    "zero-shot-classification",
    device_map="auto",
    model_kwargs={
        "cache_dir": "models",
        "offload_folder": "offload",
    },
)

text = "這篇文章探討了遷移學習在零樣本文字分類別中的應用。"
candidate_labels = ["機器學習", "自然語言處理", "資料科學"]

results = classifier(text, candidate_labels)

print(results)

這段程式碼的核心是 pipeline 函式，它建立了一個零樣本分類別器。device_map="auto" 引數會自動選擇可用的 GPU 或 CPU，讓程式碼在不同的硬體環境下都能高效執行。model_kwargs 引數則設定了模型快取和解除安裝目錄，方便管理大型模型。

我們首先定義了待分類別的文字 text，然後設定了候選標籤 candidate_labels。最後，呼叫分類別器 classifier，將文字和候選標籤傳入，即可得到分類別結果。

  graph LR
    B[B]
    A[輸入文字] --> B{零樣本分類別器};
    C[候選標籤] --> B;
    B --> D[分類別結果];

上圖展示了零樣本分類別的流程。輸入文字和候選標籤後，分類別器會輸出每個標籤的機率，表示文字屬於該標籤的可能性。

深入理解程式碼細節

pipeline 函式的 zero-shot-classification 引數指定了任務型別。Transformers 函式庫提供了許多預訓練模型和 pipeline，可以處理各種自然語言處理任務，例如文字生成、翻譯、問答等。

device_map="auto" 引數讓程式碼可以自動利用可用的 GPU 資源，如果沒有 GPU，則會使用 CPU。這對於處理大型模型非常重要，因為 GPU 可以顯著加快運算速度。

cache_dir 和 offload_folder 引數用於管理模型快取和解除安裝。大型模型通常需要大量的儲存空間，將它們快取到本地可以避免重複下載，提高效率。解除安裝資料夾則用於儲存模型的非必要部分，以減少記憶體佔用。

透過這個簡單的例子，我們可以看到遷移學習的威力。無需大量的訓練資料，就能讓預訓練模型掌握新的技能，這為自然語言處理的發展帶來了無限可能。

在我看來，遷移學習就像一把開啟 AI 寶函式庫的鑰匙，它讓更多開發者能夠參與到人工智慧的浪潮中，創造出更多令人驚豔的應用。

  graph LR
    B[B]
    F[F]
    G[G]
    A[載入個人資料] --> B{分割資料};
    B --> C[產生向量嵌入];
    C --> D[儲存嵌入至向量資料函式庫];
    E[使用者提問] --> F{查詢轉換為向量};
    F --> D;
    D --> G{檢索相關檔案};
    G --> H[LLM 生成答案];
    H --> I[輸出答案];

此流程圖展示瞭如何使用個人資料建立根據 RAG 的聊天機器人。首先，載入並分割個人資料，然後使用嵌入模型產生向量嵌入，並儲存至向量資料函式庫。當使用者提問時，問題會被轉換為向量，並用於在向量資料函式庫中檢索相關檔案。最後，LLM 根據檢索到的檔案生成答案並輸出。

透過以上步驟，我們可以有效地利用個人資料建立根據 RAG 的聊天機器人，讓 LLM 更準確地回答與個人資料相關的問題。相較於微調模型，RAG 方法更輕量級，也更易於實作和維護。

程式碼範例與內容解密

以下程式碼示範如何使用 LangChain 和 Hugging Face Hub 建立根據個人資料的 RAG 聊天機器人：

from langchain.document_loaders import DirectoryLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.llms import HuggingFacePipeline
from transformers import pipeline

# 1. 載入資料
loader = DirectoryLoader("./my_data/", glob="*.pdf") #  更改檔案位置
documents = loader.load()

# 2. 分割資料
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 3. 產生向量嵌入
embeddings = HuggingFaceEmbeddings(model_name="all-mpnet-base-v2")

# 4. 儲存嵌入
db = Chroma.from_documents(docs, embeddings)

# 5 & 6. 檢索相關資訊 & 產生答案
# 使用本機模型
# 注意：確保已安裝所需模型和 tokenizer
pipeline = pipeline(
    "question-answering",
    model="bert-base-uncased",
    tokenizer="bert-base-uncased",
    device=-1,  # 使用 CPU，如果要使用 GPU，請將 -1 改為 GPU 的編號
)
llm = HuggingFacePipeline(pipeline=pipeline)
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=db.as_retriever())

# 7. 回應
query = "我的資料裡面有什麼重要的資訊?"
answer = qa.run(query)
print(answer)

這段程式碼示範了使用 LangChain 和 Hugging Face Hub 建立根據個人資料的 RAG 聊天機器人的完整流程。首先，它使用 DirectoryLoader 載入指定目錄下的 PDF 檔案，然後使用 RecursiveCharacterTextSplitter 將檔案分割成更小的區塊。接著，使用 HuggingFaceEmbeddings 產生向量嵌入，並使用 Chroma 將嵌入儲存到向量資料函式庫。最後，使用 RetrievalQA 建立根據檢索的問答鏈，並使用 Hugging Face Hub 上的 bert-base-uncased 模型作為 LLM，回答使用者查詢。程式碼最後示範如何執行查詢並列印答案。

請注意，程式碼中的檔案路徑和模型名稱需要根據實際情況修改。此外，需要安裝必要的套件和模型才能執行此程式碼。

這個範例提供了一個清晰的框架，讓開發者可以快速上手，並根據自身需求調整程式碼，建立功能更強大的 RAG 聊天機器人。

額外説明：

模型選擇: 程式碼中使用了 all-mpnet-base-v2 產生嵌入和 bert-base-uncased 作為 LLM。您可以根據您的資料和任務需求選擇其他更適合的模型。
ChromaDB: Chroma 是一個向量資料函式庫，用於儲存和檢索向量嵌入。您可以根據您的需求選擇其他向量資料函式庫，例如 FAISS 或 Pinecone。
硬體需求: 執行 LLM 需要一定的硬體資源，尤其是 GPU。如果您沒有 GPU，可以使用 CPU 執行，但速度會比較慢。

希望這個更詳細的説明和程式碼範例能幫助您更好地理解如何使用 LangChain 和 Hugging Face Hub 建立根據個人資料的 RAG 聊天機器人。

構建一個能夠理解並回答根據特定資料集問題的聊天機器人，是許多企業和開發者的目標。在本文中，玄貓將探討如何利用大語言模型（LLM）和向量資料函式庫技術，構建根據自定義資料的問答聊天機器人。

這個流程主要包含幾個步驟：載入資料、文字分割、向量嵌入儲存、相關資訊檢索以及最終答案生成。我們將使用 LangChain 這個強大的工具來簡化開發流程，並結合 Hugging Face 的模型和向量資料函式庫技術，開發一個高效的問答系統。

  graph LR
    C[C]
A[資料載入] --> B(文字分割)
B --> C{向量嵌入儲存}
C --> D[相關資訊檢索]
D --> E(最終答案生成)

以上流程圖清晰地展現了問答系統的構建流程。首先，我們需要載入資料，這可以是任何格式的文字資料，例如 PDF、TXT 或 CSV 檔案。接著，將文字分割成更小的區塊，以便進行向量嵌入的計算。然後，使用預訓練的模型將文字塊轉換為向量嵌入，並將這些嵌入儲存到向量資料函式庫中。當使用者提問時，系統會將問題轉換為向量嵌入，並在向量資料函式庫中檢索與之最相似的文字塊。最後，根據檢索到的相關資訊，利用大語言模型生成最終答案。

以下程式碼範例展示瞭如何使用 Langchain 載入資料：

from langchain.document_loaders import DirectoryLoader

loader = DirectoryLoader('./data/', glob='**/*.pdf')
documents = loader.load()

這段程式碼使用了 Langchain 的 DirectoryLoader 來載入指定目錄下的 PDF 檔案。'./data/' 指的是存放資料的目錄路徑，glob='**/*.pdf' 則表示比對所有子目錄下的 PDF 檔案。loader.load() 函式會讀取所有符合條件的檔案，並將它們轉換為 Langchain 的 Document 物件，儲存在 documents 變數中。這種方式可以方便地批次載入資料，為後續的文書處理和向量化操作做好準備。如果您的資料不是 PDF 格式，可以根據 Langchain 提供的其他 Loader 進行調整，例如 TextLoader 適用於純文字檔案，CSVLoader 適用於 CSV 檔案等等。選擇正確的 Loader 可以有效提高資料載入的效率。

利用大語言模型和向量資料函式庫技術構建聊天機器人，可以根據特定資料集提供準確的答案。Langchain 提供了簡化的開發流程，結合 Hugging Face 的模型，可以快速構建高效的問答系統。透過理解資料載入、文字分割、向量嵌入儲存、相關資訊檢索以及最終答案生成等步驟，開發者可以更好地控制和最佳化聊天機器人的效能。選擇合適的向量資料函式庫和大語言模型，並根據實際需求調整引數，才能構建出真正符合預期的問答聊天機器人。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。