開源文字嵌入模型深度解析：MiniLM-L6-v2 家族效能大比拼

大語言模型（LLM）擅長生成文字、翻譯和回答問題，而文字嵌入模型則專注於將文字轉換為向量，捕捉語義資訊，方便電腦處理。我將在這篇文章中剖析兩款開源文字嵌入模型：sentence-transformers/all-MiniLM-l6-v2 和 DataikuNLP/paraphrase-MiniLM-L6-v2，比較它們的優劣、應用場景和效能差異，同時提供 Python 程式碼範例，示範如何應用這些模型。

  graph LR
    B[B]
    all-MiniLM-l6-v2[all-MiniLM-l6-v2]
    paraphrase-MiniLM-L6-v2[paraphrase-MiniLM-L6-v2]
    A[文字] --> B{嵌入模型} --> C(向量);
    B -- all-MiniLM-l6-v2 --> D[語義搜尋];
    B -- paraphrase-MiniLM-L6-v2 --> E[語義相似度];

圖表說明: 文字嵌入模型將文字轉換為向量，可用於語義搜尋和相似度計算等任務。all-MiniLM-l6-v2 適合語義搜尋，而 paraphrase-MiniLM-L6-v2 則更擅長語義相似度計算。

all-MiniLM-l6-v2：語義搜尋利器

sentence-transformers/all-MiniLM-l6-v2 模型在大量的網路資料上進行訓練，使其能有效捕捉詞彙的廣泛語義。這使得它非常適合用於語義搜尋，能準確地從大量文字中找到與查詢語義最相近的結果。

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('sentence-transformers/all-MiniLM-l6-v2')

sentences = ['這是一隻貓', '這是一隻狗', '那是一隻鳥']
embeddings = model.encode(sentences)

query = '一隻動物'
query_embedding = model.encode(query)

similarities = util.cos_sim(query_embedding, embeddings)

print(similarities)

這段程式碼示範瞭如何使用 all-MiniLM-l6-v2 模型計算句子相似度。首先，載入預訓練模型，然後將句子編碼成向量。接著，計算查詢陳述式與其他句子的餘弦相似度，並印出結果。

paraphrase-MiniLM-L6-v2：精準捕捉語義相似度

DataikuNLP/paraphrase-MiniLM-L6-v2 模型專注於判斷句子之間的語義相似度，例如判斷兩個句子是否表達相同的意思，或偵測句子中的轉述關係。這在問答系統、資訊檢索和抄襲檢測等應用中非常有用。

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('DataikuNLP/paraphrase-MiniLM-L6-v2')

sentences = ['這隻貓很可愛', '這隻貓咪真討人喜歡', '那隻狗很兇']
embeddings = model.encode(sentences)

similarities = util.cos_sim(embeddings, embeddings)

print(similarities)

這段程式碼示範瞭如何使用 paraphrase-MiniLM-L6-v2 模型計算句子相似度。與前一段程式碼類別似，首先載入預訓練模型，然後將句子編碼成向量。最後，計算句子之間的餘弦相似度，並印出結果。

  stateDiagram
    [*] --> 查詢: 輸入查詢文字
    查詢 --> 嵌入: 將查詢轉換為向量
    嵌入 --> 搜尋: 在資料函式庫中搜尋相似向量
    搜尋 --> 結果: 傳回最相似的結果
    結果 --> [*]

圖表說明: 這個狀態圖展示了語義搜尋的流程，從輸入查詢到傳回結果。

在實際應用中，選擇哪個模型取決於具體任務需求。如果需要在大量文字中搜尋語義相似的內容，all-MiniLM-l6-v2 是更合適的選擇。如果需要精確判斷句子之間的語義相似度，則 paraphrase-MiniLM-L6-v2 更為理想。

選擇適合的模型能有效提升應用效能。all-MiniLM-l6-v2 適用於廣泛的語義搜尋場景，而 paraphrase-MiniLM-L6-v2 則更專注於精準的語義相似度判斷。理解它們的特性和差異，才能在實際應用中做出最佳選擇。

  graph LR
    C[C]
    F[F]
A[資料收集] --> B(資料清洗)
B --> C{資料預處理}
C --> D[模型訓練]
D --> E(模型評估)
E --> F{模型佈署}

這張流程圖展示了典型的機器學習專案生命週期，從資料收集開始，經過資料清洗、預處理、模型訓練和評估，最終佈署到生產環境。

深入理解大語言模型：架構、訓練和應用

作為一個在人工智慧領域浸淫多年的技術工作者——玄貓（BlackCat），我對大語言模型（LLM）的發展和應用有著深入的理解。LLM 不僅僅是一個流行的技術 buzzword，它更是一種正在改變我們與科技互動方式的強大工具。在這篇文章中，我將分享我對 LLM 的一些見解，希望能幫助大家更好地理解這個領域。

LLM 的核心：Transformer 架構

LLM 的核心是 Transformer 架構，這是一種根據自注意力機制的深度學習模型。與傳統的迴圈神經網路（RNN）不同，Transformer 可以平行處理輸入序列中的所有 token，從而顯著提高訓練效率。自注意力機制允許模型在處理每個 token 時考慮輸入序列中的所有其他 token，從而捕捉 token 之間的長距離依賴關係。

LLM 的訓練：規模與資料

訓練 LLM 需要大量的資料和計算資源。通常，LLM 使用數十億甚至數萬億個 token 的文字資料進行訓練。訓練過程涉及調整模型中的數十億個引數，以最小化模型預測與實際目標之間的差異。這個過程需要專門的硬體和軟體，以及大量的時間和精力。

LLM 的應用：無限可能

LLM 的應用範圍非常廣泛，從簡單的文字生成到複雜的推理任務，幾乎涵蓋了所有與自然語言處理相關的領域。以下是一些 LLM 的典型應用：

聊天機器人： LLM 可以用於構建更自然、更具互動性的聊天機器人，提供更人性化的使用者經驗。
機器翻譯： LLM 可以用於不同語言之間的翻譯，提高翻譯的準確性和流暢度。
文字摘要： LLM 可以自動生成文字摘要，幫助人們快速瞭解文字的核心內容。
問答系統： LLM 可以根據使用者提問，從大量的文字資料中找到答案。
程式碼生成： LLM 可以根據自然語言描述生成程式碼，提高軟體開發效率。

LLM 的未來：挑戰與機遇

雖然 LLM 已經取得了令人矚目的成就，但仍然面臨許多挑戰。例如，LLM 的訓練成本高昂，模型的可解釋性較差，以及存在潛在的偏見問題。然而，隨著技術的進步和研究的深入，我相信 LLM 將會在更多領域發揮更大的作用，為人類帶來更多便利。

  graph LR
    B[B]
    D[D]
A[輸入文字] --> B{分詞器}
B --> C[詞嵌入]
C --> D{Transformer 模組}
D --> E[輸出]

這張圖表展示了 LLM 的基本處理流程。輸入文字首先經過分詞器處理，將其分解成單個 token。然後，每個 token 被轉換成詞嵌入，即一個代表其語義的向量。這些詞嵌入被輸入到 Transformer 模組中進行處理，最終生成輸出。

總而言之，LLM 是一種強大的技術，具有廣泛的應用前景。隨著技術的發展，LLM 將在更多領域發揮重要作用，改變我們與科技互動的方式。

  graph TD
    B[B]
    C[C]
    D[D]
    E[E]
    F[F]
    A[資料收集] --> B{資料清理}
    B --> C{特徵工程}
    C --> D{模型訓練}
    D --> E{模型評估}
    E --> F{模型佈署}

這張流程圖描述了機器學習專案的典型生命週期，涵蓋了從資料收集到模型佈署的關鍵階段。每個階段都環環相扣，共同決定了專案的成敗。值得一提的是，在實際應用中，這些階段並非線性流程，而是需要根據實際情況不斷迭代最佳化。

Transformer 模型的未來發展趨勢與挑戰

Transformer 模型自誕生以來，便席捲了自然語言處理 (NLP) 領域，其影響力也逐漸擴充套件到其他領域，如電腦視覺和語音辨識。然而，Transformer 模型並非完美無缺，它仍然面臨著一些挑戰，同時也孕育著許多令人興奮的發展趨勢。以下我將分享一些我對 Transformer 模型未來發展的觀察和思考。

挑戰與瓶頸

計算資源需求高： Transformer 模型，尤其是大語言模型 (LLM)，通常需要大量的計算資源進行訓練和推論。這限制了其在資源受限環境下的應用。如何降低模型的計算複雜度，使其更易於佈署和使用，是一個重要的研究方向。例如，模型壓縮、知識蒸餾和高效能硬體加速等技術都是值得關注的領域。
資料需求大： Transformer 模型的訓練通常需要大量的標註資料。然而，取得高品質的標註資料成本高昂與耗時。如何利用無監督學習、半監督學習和自監督學習等技術，減少對標註資料的依賴，是另一個重要的研究方向。
可解釋性差： Transformer 模型的決策過程通常難以理解和解釋。這限制了其在一些對可解釋性要求較高的領域的應用，例如醫療診斷和金融風控。如何提高模型的可解釋性，使其決策過程更加透明和可信，是一個重要的研究方向。
偏見和公平性問題： Transformer 模型的訓練資料中可能存在偏見，導致模型的輸出也帶有偏見。如何消除模型中的偏見，確保模型的公平性和可靠性，是一個重要的研究方向。
更高效的模型架構： 研究人員正在探索更高效的 Transformer 模型架構，例如稀疏注意力機制、線性注意力機制和輕量級 Transformer 模型。這些架構旨在降低模型的計算複雜度，同時保持模型的效能。
更有效的訓練方法： 研究人員正在開發更有效的訓練方法，例如混合精確度訓練、分散式訓練和自監督學習。這些方法旨在提高模型的訓練效率，減少訓練時間和資源消耗。
多模態學習： Transformer 模型正在被應用於多模態學習，例如影像-文字理解、視訊-文字理解和語音-文字理解。這將拓展 Transformer 模型的應用範圍，使其能夠處理更豐富的資訊。
與其他技術的融合： Transformer 模型正在與其他技術融合，例如知識圖譜、推理引擎和強化學習。這將提升 Transformer 模型的理解能力、推理能力和決策能力。
特定領域的應用： Transformer 模型正在被應用於特定領域，例如醫療、金融、法律和教育。這將推動這些領域的人工智慧化發展，提高生產效率和服務品質。

玄貓的觀點

我認為 Transformer 模型的未來充滿了機遇和挑戰。隨著技術的發展和應用的深入，Transformer 模型將會在更多領域發揮重要作用。同時，我們也需要關注 Transformer 模型的侷限性和潛在風險，並積極探索解決方案。我相信，在研究人員和開發者的共同努力下，Transformer 模型將會迎來更加美好的明天。

這篇文章探討了 Transformer 模型的架構、關鍵超引數、優勢、應用、未來發展趨勢和挑戰。我們也分享了一些實務調校技巧和個人觀點。希望這篇文章能幫助讀者更好地理解和應用 Transformer 模型，並在未來的研究和開發中取得更大的成功。

"""
This script demonstrates how to utilize open-source LLMs with LangChain.

Reference: https://huggingface.co/models?pipeline_tag=text-generation&sort=trending
"""

import os
from getpass import getpass
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser
from langchain_huggingface import HuggingFacePipeline, HuggingFaceEndpoint

# Securely retrieve the Hugging Face Hub API token
HUGGINGFACEHUB_API_TOKEN = getpass()

# Define the model repository and task
repo_id = "google/flan-t5-xl"  # Example: Using flan-t5-xl.  Consider smaller models for free tier usage.
task = "text2text-generation"

# Initialize the Hugging Face Pipeline
hf_pipeline = HuggingFacePipeline.from_model_id(
    model_id=repo_id,
    task=task,
    huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN,
    model_kwargs={"temperature": 0.01, "max_length": 64} # Adjust parameters as needed
)


# Example usage with a ChatPromptTemplate
prompt_template = ChatPromptTemplate.from_template("Translate this sentence: {sentence}")
chain = prompt_template | hf_pipeline | StrOutputParser()

# Test the chain with different sentences
sentences = ["你好世界", "How are you?", "What is the meaning of life?"]
for sentence in sentences:
    response = chain.invoke({"sentence": sentence})
    print(f"Input: {sentence}, Output: {response}")


# 使用 HuggingFaceEndpoint
endpoint_url = "https://api-inference.huggingface.co/models/google/flan-t5-xl" #模型位置
hf_endpoint = HuggingFaceEndpoint(
    endpoint_url=endpoint_url, 
    huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN,
)

# 使用 HuggingFaceEndpoint 進行翻譯
prompt_template = ChatPromptTemplate.from_template("Translate this sentence: {sentence}")
chain = prompt_template | hf_endpoint | StrOutputParser()

sentences = ["你好世界", "How are you?", "What is the meaning of life?"]
for sentence in sentences:
    response = chain.invoke({"sentence": sentence})
    print(f"Input: {sentence}, Output: {response}")

這段程式碼示範瞭如何使用 LangChain 整合開源大語言模型（LLM）。它首先安全地取得 Hugging Face Hub API 令牌，然後定義模型儲存函式庫和任務。接下來，它初始化 Hugging Face Pipeline，並使用 ChatPromptTemplate 建立一個翻譯鏈。最後，它測試了不同句子的翻譯效果。程式碼的下半部分展示瞭如何使用 HuggingFaceEndpoint 進行相同的翻譯任務，提供了一個使用不同介面的範例。

  graph LR
    B[B]
    D[D]
    G[G]
A[取得 API 令牌] --> B{定義模型和任務};
B --> C[初始化 Pipeline];
C --> D{建立翻譯鏈};
D --> E[測試翻譯];
E --> F[初始化 Endpoint];
F --> G{建立翻譯鏈};
G --> H[測試翻譯];

透過以上程式碼和圖表，我們可以清楚地理解如何使用 LangChain 與 Hugging Face 模型進行互動，並執行翻譯等任務。這個例子也展示了 LangChain 的靈活性，可以輕鬆切換不同的模型和介面。

在開發過程中，請根據實際需求調整模型引數，例如 temperature 和 max_length。此外，建議根據任務選擇合適的模型大小，較小的模型可以降低計算成本，尤其在免費使用層級時。

這個範例提供了一個使用 LangChain 與開源 LLM 的基礎框架。您可以根據自己的需求修改和擴充套件這個範例，例如更改提示範本、使用不同的模型或整合其他工具。

這個程式碼片段展示瞭如何使用 LangChain 與 Hugging Face 平台上的開源大語言模型進行互動。其中，flan-t5-xl 是一個功能強大的文字生成模型，適用於各種自然語言處理任務，包括翻譯、摘要和問答等。程式碼中使用了兩種方式與 Hugging Face 模型互動：HuggingFacePipeline 和 HuggingFaceEndpoint。 HuggingFacePipeline 直接使用 Hugging Face 的 Pipeline API，而 HuggingFaceEndpoint 則使用 Hugging Face 的 Inference Endpoint。兩種方式各有優缺點，開發者可以根據自己的需求選擇合適的方式。程式碼中還使用了 ChatPromptTemplate 和 StrOutputParser，簡化了提示工程和輸出解析的過程。總體而言，這段程式碼提供了一個簡潔而有效的示例，展示瞭如何利用 LangChain 和 Hugging Face 的開源模型構建自然語言處理應用。

import os
from langchain.prompts import ChatPromptTemplate
from langchain.llms import HuggingFacePipeline, HuggingFaceEndpoint
from langchain.output_parsers import StrOutputParser

# 安全地取得 Hugging Face Hub API 金鑰
HUGGINGFACEHUB_API_TOKEN = os.environ.get("HUGGINGFACEHUB_API_TOKEN")
if HUGGINGFACEHUB_API_TOKEN is None:
    import getpass
    HUGGINGFACEHUB_API_TOKEN = getpass.getpass("請輸入你的 Hugging Face Hub API 金鑰：")
    os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACEHUB_API_TOKEN


# 定義提示範本
prompt_template = ChatPromptTemplate.from_template("用{style}的風格解釋{terminology}，讓{user}可以理解。")
prompt_template_2 = ChatPromptTemplate.from_template("什麼是板球？請簡要說明。")

output_parser = StrOutputParser()

# 使用 Falcon 模型 (tiiuae/falcon-7b)
# 方法一：使用 HuggingFaceEndpoint (線上呼叫)
try:
    falcon_llm = HuggingFaceEndpoint(
        repo_id="tiiuae/falcon-7b",
        temperature=0.5,
        do_sample=True,
        timeout=3000,  # 設定較長的逾時時間
        huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN
    )

    chain_1 = prompt_template | falcon_llm | output_parser
    response_1 = chain_1.invoke({"terminology": "大語言模型", "style": "幽默", "user": "小朋友"})
    print(f"Falcon (線上呼叫) 回應 1：{response_1}")

    chain_2 = prompt_template_2 | falcon_llm | output_parser
    response_2 = chain_2.invoke({})
    print(f"Falcon (線上呼叫) 回應 2：{response_2}")

except Exception as e:
    print(f"使用 Falcon (線上呼叫) 發生錯誤：{e}")


# 方法二：使用 HuggingFacePipeline (本地執行) -  建議使用較小模型或付費版本以避免資源限制
try:
    falcon_generate_text = HuggingFacePipeline.from_model_id(
        model_id="tiiuae/falcon-7b",  # 注意：大型模型可能超出免費額度
        task="text-generation",
        device_map="auto",
        pipeline_kwargs={
            "max_new_tokens": 100,
            "do_sample": False,
            "repetition_penalty": 1.03,
        },
        model_kwargs={
            "cache_dir": "falcon_cache",  # 設定模型快取目錄
            "offload_folder": "falcon_offload",  # 設定 offload 資料夾
        },
        huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN
    )

    chain_3 = prompt_template | falcon_generate_text | output_parser
    response_3 = chain_3.invoke({"terminology": "大語言模型", "style": "幽默", "user": "小朋友"})
    print(f"Falcon (本地執行) 回應 1：{response_3}")

    chain_4 = prompt_template_2 | falcon_generate_text | output_parser
    response_4 = chain_4.invoke({})
    print(f"Falcon (本地執行) 回應 2：{response_4}")

except Exception as e:
    print(f"使用 Falcon (本地執行) 發生錯誤：{e}")



# 使用 Phi-3-mini-4k-instruct 模型 (microsoft/Phi-3-mini-4k-instruct) - 較小模型，適合免費額度
try:
    ms_llm = HuggingFaceEndpoint(
        repo_id="microsoft/Phi-3-mini-4k-instruct",
        temperature=0.5,
        do_sample=True,
        timeout=300,
        huggingfacehub_api_token=HUGGINGFACEHUB_API_TOKEN
    )

    chain_5 = prompt_template | ms_llm | output_parser
    response_5 = chain_5.invoke({"terminology": "大語言模型", "style": "幽默", "user": "小朋友"})
    print(f"Phi-3-mini-4k-instruct 回應：{response_5}")

except Exception as e:
    print(f"使用 Phi-3-mini-4k-instruct 發生錯誤：{e}")

這段程式碼示範如何使用 LangChain 與 Hugging Face Hub 互動，利用大語言模型 (LLM) 產生文字。程式碼使用了 Falcon 和 Phi-3-mini-4k-instruct 兩種模型，並示範了 HuggingFaceEndpoint (線上呼叫) 和 HuggingFacePipeline (本地執行) 兩種呼叫方式。

程式碼首先安全地取得 Hugging Face Hub API 金鑰，避免直接寫在程式碼中。接著，定義提示範本，並使用 StrOutputParser 解析模型輸出。

針對 Falcon 模型，程式碼提供了線上和本地兩種執行方式。線上呼叫使用 HuggingFaceEndpoint，設定了逾時時間以避免長時間等待。本地執行使用 HuggingFacePipeline，並設定了快取目錄和 offload 資料夾，以最佳化效能和資源使用。由於 Falcon-7b 模型較大，程式碼中特別提醒使用者注意免費額度的限制，並建議使用較小模型或付費版本。

針對 Phi-3-mini-4k-instruct 模型，程式碼使用線上呼叫方式，因為這個模型較小，適合在免費額度下使用。

每個模型呼叫都包含了 try-except 區塊，用於捕捉潛在的錯誤，例如網路連線問題或模型執行錯誤，並提供更友善的錯誤訊息。

程式碼中也示範瞭如何設定模型引數，例如 temperature、do_sample、max_new_tokens 和 repetition_penalty 等，這些引數會影響模型產生的文字。

透過這個範例，您可以學習如何使用 LangChain 與不同的 Hugging Face 模型互動，並根據需求選擇不同的呼叫方式和引數設定。

這個改良版的程式碼更注重安全性、錯誤處理和資源使用效率，並提供更清晰的程式碼結構和說明，讓使用者更容易理解和使用。

透過這個範例，您可以更有效地運用 LangChain 和 Hugging Face 模型進行文字生成任務。記得根據您的需求調整模型和引數設定，以獲得最佳的結果。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。