自然語言處理分塊策略與實踐

在自然語言處理任務中，如何有效地將文字分割成適合 AI 模型處理的單元至關重要。本文介紹了多種分塊策略，並以 Python 程式碼示範如何實作這些策略，例如按句子、段落、主題或長度分割。同時，也探討了使用 SpaCy 進行句子檢測和構建簡單分塊演算法的實務方法。此外，文章還深入講解了滑動視窗分塊技術，以及如何利用 Tiktoken 進行高效的文字分詞和標記計算，並以情緒分析為例，說明如何設計有效的提示以提升大語言模型的分析能力。

分塊策略在自然語言處理中的應用與實踐

在自然語言處理（NLP）領域，分塊（Chunking）是一項至關重要的技術，旨在將大段文字分割成更小、更易於管理的單元，以便於AI模型進行處理和分析。本文將探討多種分塊策略，並結合實際案例，展示如何在Python中實作這些策略。

多樣化的分塊策略

分塊策略的選擇直接影響到NLP任務的效率和準確性。以下是幾種常見的分塊策略：

按句子分割：這種方法能夠保留原始內容的上下文和結構，使LLMs（大語言模型）更容易理解和處理資訊。按句子分割尤其適用於摘要、翻譯和情感分析等任務。
按段落分割：當處理較長的內容時，按段落分割能夠讓LLM專注於一個連貫的單元。這種方法非常適合檔案分析、主題建模和資訊提取等應用。
按主題或章節分割：透過將文字按主題或章節進行分割，可以幫助AI模型更好地識別和理解內容中的主要主題和思想。這種方法適用於文字分類別、內容推薦和聚類別等任務。
按複雜度分割：根據文字的複雜度（如閱讀水平或技術性）進行分割，可以使LLM更有效地處理和分析文字。這種方法對於可讀性分析、內容改編和個人化學習等任務非常有用。
按長度分割：這種技術特別適用於處理非常長或複雜的檔案，能夠提高LLM的處理效率。按長度分割適合於大規模文字分析、搜尋引擎索引和文字預處理等應用。
使用分詞器按標記分割：分詞器是NLP任務中的關鍵工具，能夠將文字分割成更小的單元，如詞語、短語或符號，從而使AI模型能夠更有效地分析和處理文字。

分塊策略對比分析

分割策略	優點	缺點
按句子分割	保留上下文，適用於多種任務	對非常長的內容可能效率不高
按段落分割	處理較長內容，專注於連貫單元	粒度較粗，可能忽略細微聯絡
按主題分割	識別主要主題，更適合分類別	需要主題識別，可能忽略細節
按複雜度分割	組織相似複雜度內容，具有適應性	需要複雜度測量，不適用於所有任務
按長度分割	管理非常長的內容，高效處理	丟失上下文，可能需要更多預處理步驟
使用分詞器：按標記分割	準確的標記計數，有助於避免LLM提示標記限制	需要分詞，可能增加計算複雜度

使用SpaCy進行句子檢測

句子檢測是NLP中的一項基本任務，涉及識別給定文字中句子的起止。SpaCy是一個功能強大的NLP函式庫，能夠高效地進行句子檢測。

SpaCy句子檢測範例

import spacy

# 載入SpaCy的英文模型
nlp = spacy.load("en_core_web_sm")

# 定義輸入文字
text = "This is a sentence. This is another sentence."

# 處理文字
doc = nlp(text)

# 遍歷檢測到的句子並列印
for sent in doc.sents:
    print(sent.text)

輸出結果：

This is a sentence.
This is another sentence.

在Python中構建簡單的分塊演算法

透過親自實作分塊演算法，可以加深對分塊策略的理解。下面是一個根據字元長度的簡單分塊範例。

字元分塊範例

with open("hubspot_blog_post.txt", "r") as f:
    text = f.read()

# 將文字按200字元進行分塊
chunks = [text[i:i+200] for i in range(0, len(text), 200)]

# 列印分塊結果
for chunk in chunks:
    print("-" * 20)
    print(chunk)

輸出結果（部分）：

--------------------
search engine optimization strategy for many local businesses is an optimized
Google My Business profile to appear in local search results when people look for
products or services related to what yo
--------------------
u offer.

內容解密：

此範例程式碼展示瞭如何將一個較大的文字檔案按固定字元長度（本例中為200字元）進行分塊。首先，開啟並讀取hubspot_blog_post.txt檔案內容。然後，使用列表推導式將文字分割成多個子字串，每個子字串的長度不超過200字元。最後，遍歷這些分塊並列印預出來，每個分塊前用一串破折號分隔。此方法簡單直接，適用於需要將大文字分割成更小單元的場景。

使用滑動視窗進行文字分塊的最佳實踐

在處理大型文字資料時，如何有效地將文字分割成適合大語言模型（LLM）處理的區塊是一個重要的技術挑戰。本文將探討滑動視窗分塊技術的原理、實作方法及其在提示工程中的應用價值。

簡單文字分塊的侷限性

首先，讓我們觀察一個簡單的文字分塊範例，瞭解其侷限性：

with open('hubspot_blog_post.txt', 'r') as file:
    text = file.read()

chunks = [text[i:i+200] for i in range(0, len(text), 200)]

for idx, chunk in enumerate(chunks):
    print(f"Chunk {idx + 1}: {chunk}")

內容解密：

程式碼首先使用 open 函式讀取文字檔案內容到 text 變數中。
透過列表推導式將文字分割成每200個字元的區塊。
使用 range 函式生成索引，並透過切片提取對應長度的子字串。
最後遍歷所有區塊並列印到控制檯。

這種簡單的分塊方法存在明顯缺陷：

句子和單詞可能被截斷
無法處理跨頁面的句子
無法保證每個區塊的token數量適當

滑動視窗分塊技術原理

滑動視窗分塊是一種透過建立重疊的文字區塊來保留上下文資訊的技術。想像透過一個固定大小的視窗觀察長文字，當視窗從頭移動到尾時，會產生一系列重疊的文字區塊。

關鍵引數：

視窗大小（window_size）：決定每個區塊包含的字元數量
步長（step_size）：決定視窗每次移動的字元數量

兩者的關係直接影響區塊之間的重疊程度和資訊保留情況。

Python實作滑動視窗分塊

def sliding_window(text, window_size, step_size):
    """
    使用滑動視窗對文字進行分塊處理
    
    :param text: 原始文字
    :param window_size: 視窗大小
    :param step_size: 步長大小
    :return: 分塊後的文字列表
    """
    if window_size > len(text) or step_size < 1:
        return []
    return [text[i:i+window_size] for i in range(0, len(text) - window_size + 1, step_size)]

# 示例用法
text = "這是一個滑動視窗文字分塊的範例，用於展示技術細節。"
window_size = 20
step_size = 5

chunks = sliding_window(text, window_size, step_size)
for idx, chunk in enumerate(chunks):
    print(f"區塊 {idx + 1}: {chunk}")

內容解密：

函式首先檢查輸入引數的有效性。
使用列表推導式生成符合滑動視窗規則的文字區塊。
range 函式控制視窗的起始位置。
步長引數決定視窗移動的粒度。

滑動視窗技術的優勢

保留上下文資訊：透過區塊之間的重疊確保語義連貫性。
靈活性：可根據需求調整視窗大小和步長。
適用性：特別適合需要連續上下文資訊的LLM應用場景。

使用Tiktoken進行高效文字分詞

在處理LLM輸入時，正確的分詞至關重要。Tiktoken是OpenAI推薦的高效分詞工具，具有以下優勢：

精確的分詞結果：符合OpenAI模型的解析規則。
高效的資源利用：有助於精確控制API呼叫成本。
支援多種編碼格式：如cl100k_base、p50k_base等。

import tiktoken

# 初始化tiktoken編碼器
encoding = tiktoken.get_encoding("cl100k_base")

# 示例文字
text = "這是一個使用Tiktoken進行文字分詞的範例。"

# 取得tokens
tokens = encoding.encode(text)

print(f"原始文字：{text}")
print(f"Tokens數量：{len(tokens)}")
print(f"Tokens內容：{tokens}")

內容解密：

程式碼首先匯入tiktoken函式庫並初始化編碼器。
使用encode方法將文字轉換為tokens序列。
列印相關資訊以供參考。

隨著自然語言處理技術的不斷進步，未來可能會出現更多高效的分塊和分詞技術。開發者需要持續關注相關技術發展，不斷最佳化現有的解決方案，以滿足日益增長的應用需求。同時，相關技術的最佳實踐也將持續演進，為LLM應用提供更強大的技術支援。

附錄：參考資源

OpenAI官方檔案：Tiktoken使用
論文：滑動視窗技術在NLP中的應用研究

這些資源為深入理解相關技術提供了寶貴的參考資訊，有助於開發者進一步提升技術水平。

圖表說明

圖1：滑動視窗示意圖

  graph LR
    A[開始] --> B[視窗1]
    B --> C[視窗2]
    C --> D[視窗3]
    D --> E[結束]
    B -- 重疊 --> C
    C -- 重疊 --> D

圖表翻譯： 此圖示展示了滑動視窗的工作原理，各個視窗之間存在重疊區域，以保留上下文資訊。

透過上述詳細說明和實作範例，我們對滑動視窗分塊技術及其在LLM應用中的重要性有了更深入的理解。未來在實際開發中，可以根據具體需求靈活運用這些技術，以達到最佳的應用效果。

使用Tiktoken進行文字分詞與標記計算

為了輕鬆檢查字串的分詞結果，可以使用OpenAI Tokenizer。透過安裝tiktoken套件，可以輕易地將文字編碼為標記（tokens）並將標記解碼迴文字。

安裝與基本使用

首先，使用pip從PyPI安裝tiktoken：

pip install tiktoken

接著，可以按照以下步驟使用tiktoken進行文字的分詞與反分詞：

1. 匯入套件

import tiktoken

2. 載入編碼模型

encoding = tiktoken.get_encoding("cl100k_base")

3. 文字與標記之間的轉換

使用encoding.encode()將文字轉換為標記，使用encoding.decode()將標記轉換迴文字：

print(encoding.encode("Learning how to use Tiktoken is fun!"))
print(encoding.decode([1061, 15009, 374, 264, 2294, 1648, 311, 4048, 922, 15592, 0]))

自定義函式計算標記數量

以下是一個自定義函式，用於計算給定文字字串的標記數量：

def count_tokens(text_string: str, encoding_name: str) -> int:
    """
    使用指定的編碼計算文字字串中的標記數量。
    
    Args:
    text_string: 要計算標記數量的文字。
    encoding_name: 用於分詞的編碼名稱。
    
    Returns:
    文字字串中的標記數量。
    
    Raises:
    ValueError: 如果編碼名稱無法識別。
    """
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(text_string))
    return num_tokens

# 使用自定義函式計算標記數量
text_string = "Hello world! This is a test."
print(count_tokens(text_string, "cl100k_base"))

上述程式碼輸出結果為8。

估算Chat API呼叫的標記用量

對於像GPT-3.5-turbo和GPT-4這樣的聊天模型，訊息結構使得對話中的標記計數更加複雜。以下是一個用於計算訊息列表中標記數量的函式：

def num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613"):
    """計算訊息列表所使用的標記數量。"""
    try:
        encoding = tiktoken.encoding_for_model(model)
    except KeyError:
        print("警告：找不到模型。使用cl100k_base編碼。")
        encoding = tiktoken.get_encoding("cl100k_base")
    
    # 不同模型的標記計算規則不同
    if model in {
        "gpt-3.5-turbo-0613",
        "gpt-3.5-turbo-16k-0613",
        "gpt-4-0314",
        "gpt-4-32k-0314",
        "gpt-4-0613",
        "gpt-4-32k-0613",
    }:
        tokens_per_message = 3
        tokens_per_name = 1
    elif model == "gpt-3.5-turbo-0301":
        tokens_per_message = 4 
        tokens_per_name = -1 
    elif "gpt-3.5-turbo" in model:
        print('''警告：gpt-3.5-turbo可能會隨時間更新。假設使用gpt-3.5-turbo-0613進行標記計數。''')
        return num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613")
    elif "gpt-4" in model:
        print('''警告：gpt-4可能會隨時間更新。假設使用gpt-4-0613進行標記計數。''')
        return num_tokens_from_messages(messages, model="gpt-4-0613")
    else:
        raise NotImplementedError(
            f"""num_tokens_from_messages()尚未為模型{model}實作。"""
        )
    
    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message
        for key, value in message.items():
            num_tokens += len(encoding.encode(value))
            if key == "name":
                num_tokens += tokens_per_name
    num_tokens += 3 
    return num_tokens

# 示例訊息列表
example_messages = [
    {
        "role": "system",
        "content": '''您是一位有幫助、遵循模式的助理，能夠將企業術語翻譯成通俗易懂的語言。''',
    },
    # ... 其他訊息 ...
]

for model in ["gpt-3.5-turbo-0301", "gpt-4-0314"]:
    print(model)
    print(f'''{num_tokens_from_messages(example_messages, model)} prompt tokens counted by num_tokens_from_messages().''')

內容解密：

此函式根據不同的模型版本採用不同的標記計算規則。首先，它嘗試取得指定模型的編碼。如果找不到模型，則預設使用cl100k_base編碼。接著，根據模型的型別，設定每個訊息和每個名稱的標記數量。最後，遍歷訊息列表，計算每個訊息和其內容的標記數量，並加上額外的標記以適應模型的回應格式。

情緒分析的提示工程技術

情緒分析是一種廣泛使用的自然語言處理（NLP）技術，用於識別、提取和理解文字中表達的情感、意見或情緒。利用像GPT-4這樣的大語言模型（LLMs），情緒分析已成為各行業企業、研究人員和開發者的重要工具。

有效情緒分析提示的建立技巧：

清晰定義輸出格式：確保提示明確指出所需的輸出格式。
具體情境描述：提供具體的情境描述，以便模型更好地理解文字背景。

例如：輸入：

這段文字是正面還是負面？
我非常喜歡這部手機的設計，但電池壽命相當令人失望。

輸出：

這段文字具有混合的語氣，因為它既包含正面的部分，也包含負面的部分。正面的部分是“我非常喜歡這部手機的設計”，而負面的部分是“電池壽命相當令人失望”。

雖然GPT-4能夠識別出“混合語氣”，但輸出結果仍受限於提示本身的缺陷，例如缺乏清晰度。

內容解密：

此範例展示瞭如何使用GPT-4進行情緒分析。透過精心設計的提示，可以提高模型在情緒分析任務中的表現。未來的工作可以集中在改進提示設計，以獲得更準確和有用的分析結果。

隨著NLP技術的不斷發展，未來可以預見更先進的分詞技術和更準確的情緒分析方法。同時，如何更有效地利用大語言模型進行複雜的NLP任務，將是未來研究的重要方向。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。