Python文字分塊與Token化技術詳解

在自然語言處理任務中，有效地處理大量文字資料至關重要。本文將介紹兩種常見的文字分塊技術：簡單分塊和滑動視窗分塊，並深入探討如何使用 Tiktoken 進行 Token 化，以利於後續的模型訓練和分析。同時，我們也將探討分塊演算法的特性以及在情感分析中的應用。簡單分塊是將文字以固定大小分割，適用於初步處理。滑動視窗分塊則允許片段重疊，保留更多上下文資訊，適用於需要上下文理解的任務。Tiktoken 則是一種高效的 BPE Tokenizer，適用於 OpenAI 模型，能有效控制 Token 數量並管理資源。理解這些技術的差異及應用場景，有助於開發者選擇合適的工具，提升 NLP 任務的效率和準確性。

Python 中的簡單分塊演算法

在自然語言處理（NLP）中，分塊演算法是一種用於將文字分割成較小塊的技術。這種技術對於處理大型文字資料非常重要。以下是使用 Python 實作的一個簡單分塊演算法範例：

def simple_chunking(text, chunk_size):
    chunks = [text[i:i+chunk_size] for i in range(0, len(text), chunk_size)]
    return chunks

這個函式接收兩個引數：text（要分塊的文字）和 chunk_size（每個分塊的大小）。它使用列表推導式來建立一個分塊列表，每個分塊都是原始文字的一部分。

滑動視窗分塊

滑動視窗分塊是一種將文字資料分割成重疊分塊的技術。這種方法可以保留文字之間的上下文關係。以下是使用 Python 實作的滑動視窗分塊範例：

def sliding_window(text, window_size, step_size):
    if window_size > len(text) or step_size < 1:
        return []
    chunks = []
    for i in range(0, len(text), step_size):
        chunk = text[i:i+window_size]
        chunks.append(chunk)
    return chunks

這個函式接收三個引數：text（要分塊的文字）、window_size（視窗大小）和 step_size（步長）。它使用迴圈來建立一個分塊列表，每個分塊都是原始文字的一部分。

分塊演算法的特性

一個好的 NLP 分塊演算法應該具有以下特性：

保留完整的詞彙、句子和上下文關係。
處理跨頁面的句子。
為每個分塊提供足夠的令牌數，以適應給定的令牌上下文視窗。

滑動視窗分塊的優點

滑動視窗分塊具有以下優點：

保留文字之間的上下文關係。
減少了丟失資訊的風險。
可以根據需要調整視窗大小和步長。

然而，滑動視窗分塊也有一些缺點，例如增加了計算複雜度和儲存需求。因此，需要根據具體應用需求選擇合適的分塊演算法。

文字切割與Token化技術

在自然語言處理（NLP）中，文字切割和Token化是兩個重要的步驟。文字切割是指將長篇文字分割成較小的片段，以便於處理和分析。Token化則是指將文字分割成個別的單元，例如單詞或字元。

滑動視窗法

滑動視窗法是一種常見的文字切割方法。它透過設定一個視窗大小和步長，將文字分割成固定大小的片段。例如，假設我們有一段文字「This is an example of sliding window text chunking.」，並設定視窗大小為20，步長為5。則滑動視窗法會將文字分割成以下片段：

Chunk 1: This is an example o
Chunk 2: is an example of sli
Chunk 3: example of sliding
Chunk 4: ple of sliding windo
Chunk 5: f sliding window tex
Chunk 6: ding window text chu
Chunk 7: window text chunking

滑動視窗法可以幫助我們保留更多的上下文資訊，因為每個片段都有一定的重疊。

Token化技術

Token化技術是指將文字分割成個別的單元，例如單詞或字元。有許多不同的Token化技術，包括NLTK、spaCy和tiktoken等。其中，tiktoken是一種快速的位元組對編碼（BPE）Token化器，它可以將文字分割成子詞單元，並且設計用於OpenAI的模型。

Tiktoken的優點

使用tiktoken有幾個優點：

準確的Token分割：Tiktoken可以準確地將文字分割成Token，這對於GPT模型來說是非常重要的，因為它們以Token為單位進行處理。
有效的資源利用：使用tiktoken可以幫助我們有效地利用資源，特別是在使用OpenAI API時。透過準確地計算Token數量，我們可以更好地管理資源和成本。
支援多種編碼：Tiktoken支援多種編碼，包括cl100k_base、p50k_base和r50k_base等。這些編碼可以用於不同的OpenAI模型，例如GPT-4、GPT-3.5-turbo和Codex模型等。

編碼和Token化

編碼是指將文字轉換成Token的方法，不同的模型使用不同的編碼。Tiktoken支援多種編碼，包括：

cl100k_base：用於GPT-4、GPT-3.5-turbo和text-embedding-ada-002等模型。
p50k_base：用於Codex模型、text-davinci-002和text-davinci-003等模型。
r50k_base（或gpt2）：用於GPT-3模型，如davinci。

字串Token化

在英語中，Token可以是單個字元，也可以是一個單詞。這是因為Token化可以根據語言的複雜性進行適應。在一些語言中，Token甚至可以短於一個字元，或者長於一個單詞。

使用Tiktoken進行文字標記化

Tiktoken是一種強大的工具，能夠幫助我們將文字轉換為標記化的格式，以便於進行後續的處理和分析。在這個章節中，我們將學習如何使用Tiktoken進行文字標記化，並且瞭解其背後的原理和應用場景。

載入Tiktoken套件

首先，我們需要載入Tiktoken套件，才能夠使用其功能。這可以透過以下程式碼實作：

import tiktoken

載入編碼

接下來，我們需要載入一個編碼，以便於進行文字標記化。Tiktoken提供了多種編碼選擇，我們可以根據需要選擇合適的編碼。以下程式碼載入了一個名為「cl100k_base」的編碼：

encoding = tiktoken.get_encoding("cl100k_base")

文字標記化

現在，我們可以使用載入的編碼對文字進行標記化。以下程式碼將一個文字字串轉換為標記化的格式：

text_string = "Learning how to use Tiktoken is fun!"
tokens = encoding.encode(text_string)
print(tokens)

這將輸出一個列表，包含了文字字串對應的標記化程式碼。

標記化反轉

除了進行文字標記化外，Tiktoken還可以將標記化程式碼反轉回原始文字。以下程式碼示範瞭如何實作這一功能：

tokens = [1061, 15009, 374, 264, 2294, 1648, 311, 4048, 922, 15592, 0]
text_string = encoding.decode(tokens)
print(text_string)

這將輸出原始文字字串。

定義一個函式進行文字標記化和計數

為了方便地使用Tiktoken進行文字標記化和計數，我們可以定義一個函式，該函式接受一個文字字串和一個編碼名稱作為輸入，並傳回標記化後的程式碼數量。以下程式碼定義了這樣一個函式：

def count_tokens(text_string: str, encoding_name: str) -> int:
    """
    Returns the number of tokens in a text string using a given encoding.
    
    Args:
        text_string: The text string to be tokenized.
        encoding_name: The name of the encoding to be used for tokenization.
    
    Returns:
        The number of tokens in the text string.
    
    Raises:
        ValueError: If the encoding name is not recognized.
    """
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(text_string))
    return num_tokens

使用函式進行文字標記化和計數

現在，我們可以使用定義的函式進行文字標記化和計數。以下程式碼示範瞭如何使用這個函式：

text_string = "Hello world! This is a test."
print(count_tokens(text_string, "cl100k_base"))

這將輸出標記化後的程式碼數量。

圖表翻譯：

  flowchart TD
    A[文字字串] --> B[編碼]
    B --> C[標記化]
    C --> D[計數]
    D --> E[輸出結果]

這個流程圖展示了使用Tiktoken進行文字標記化和計數的步驟，從載入編碼到輸出結果。

玄貓對話式API呼叫的Token估算

對話式AI模型，如GPT-3.5-turbo和GPT-4，使用Token的方式與之前的完成模型類別似。然而，根據訊息的結構使得對話中的Token計數更加具有挑戰性。下面是計算Token數量的方法：

Token計數函式

def num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613"):
    """
    傳回玄貓使用的Token數量。
    """
    try:
        encoding = tiktoken.encoding_for_model(model)
    except KeyError:
        print("Warning: model not found. Using cl100k_base encoding.")
        encoding = tiktoken.get_encoding("cl100k_base")

    if model in [
        "gpt-3.5-turbo-0613",
        "gpt-3.5-turbo-16k-0613",
        "gpt-4-0314",
        "gpt-4-32k-0314",
        "gpt-4-0613",
        "gpt-4-32k-0613",
    ]:
        tokens_per_message = 3
        tokens_per_name = 1
    elif model == "gpt-3.5-turbo-0301":
        tokens_per_message = 4
        tokens_per_name = -1
    elif "gpt-3.5-turbo" in model:
        print(
            '''Warning: gpt-3.5-turbo may update over time. Returning num tokens assuming gpt-3.5-turbo-0613.'''
        )
        return num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613")
    elif "gpt-4" in model:
        print(
            '''Warning: gpt-4 may update over time. Returning num tokens assuming gpt-4-0613.'''
        )
        return num_tokens_from_messages(messages, model="gpt-4-0613")
    else:
        raise NotImplementedError(
            f"""num_tokens_from_messages() is not implemented for model {model}."""
        )

    num_tokens = 0
    for message in messages:
        num_tokens += tokens_per_message

內容解密：

上述函式num_tokens_from_messages計算了對話式API呼叫中使用的Token數量。它根據模型型別和訊息數量進行計算。函式首先嘗試取得模型的編碼，如果模型不存在，則使用預設編碼。然後，根據模型型別，函式設定每條訊息和每個名稱的Token數量。最後，函式迭代訊息列表，計算總Token數量。

圖表翻譯：

  flowchart TD
    A[開始] --> B[取得模型編碼]
    B --> C[設定Token數量]
    C --> D[計算總Token數量]
    D --> E[傳回結果]

圖表翻譯：

此圖表展示了計算Token數量的流程。首先，取得模型編碼，然後設定Token數量，接著計算總Token數量，最後傳回結果。這個流程簡單明瞭，易於理解。

實際應用：

在實際應用中，需要根據具體的模型型別和訊息數量進行計算。例如，使用GPT-3.5-turbo-0613模型，計算10條訊息的Token數量：

messages = ["message1", "message2",..., "message10"]
num_tokens = num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613")
print(num_tokens)

這樣可以得到10條訊息的總Token數量。

程式碼與情感分析

在進行情感分析時，瞭解如何構建有效的提示工程至關重要。以下是一個使用Python進行情感分析的簡單示例，展示瞭如何使用自然語言處理（NLP）技術來判斷文字的情感傾向。

程式碼

import nltk
from nltk.sentiment import SentimentIntensityAnalyzer

# 初始化情感分析工具
sia = SentimentIntensityAnalyzer()

# 定義要分析的文字
text = "I absolutely love the design of this phone, but the battery life is quite disappointing."

# 進行情感分析
sentiment = sia.polarity_scores(text)

# 判斷情感傾向
if sentiment['compound'] > 0.05:
    print("positive")
elif sentiment['compound'] < -0.05:
    print("negative")
else:
    print("neutral")

內容解密

上述程式碼使用了NLTK函式庫中的SentimentIntensityAnalyzer類別來進行情感分析。這個類別提供了一個簡單的方法來計算文字的情感傾向，包括正面、負面和中立的情感。

初始化情感分析工具：我們首先初始化SentimentIntensityAnalyzer物件，這個物件提供了情感分析的功能。
定義要分析的文字：我們定義了一段要分析的情感文字。
進行情感分析：我們使用polarity_scores方法來計算文字的情感傾向，得到一個包含正面、負面和中立情感分數的字典。
判斷情感傾向：根據計算出的分數，我們可以判斷文字的情感傾向。如果分數大於0.05，則為正面；小於-0.05，則為負面；否則為中立。

圖表翻譯

以下是使用Mermaid語法繪製的情感分析流程圖：

  flowchart TD
    A[文字輸入] --> B[初始化情感分析工具]
    B --> C[進行情感分析]
    C --> D[判斷情感傾向]
    D --> E[輸出結果]

這個圖表展示了情感分析的流程，從文字輸入到初始化情感分析工具、進行情感分析、判斷情感傾向，最終輸出結果。

圖表解釋

這個圖表使用Mermaid語法繪製，展示了情感分析的流程。每個步驟都清晰地標示出來，方便理解和跟蹤。這個圖表可以幫助開發者快速理解情感分析的流程和邏輯。

情感分析技術

情感分析是一種複雜的任務，涉及分析文字以確定其情感傾向。為了提高情感分析的準確性，需要進行文字預處理，包括特殊字元刪除、大小寫轉換和拼寫糾錯。

文字預處理技術

特殊字元刪除：刪除特殊字元，如表情符號、標籤和標點符號，可以避免對情感分析演算法的幹擾。
大小寫轉換：將所有字元轉換為小寫，可以創造統一的文字格式，避免詞彙重複和不準確性。
拼寫糾錯：糾正拼寫錯誤可以避免誤解和誤分類別。為了提高準確性，可以建立一個拼寫檢查管道。

情感分析挑戰

處理反語和諷刺：檢測反語和諷刺可能很困難，因為它們需要理解上下文和微妙的提示。
識別特定情境的情感：情感分析可能很困難，特別是在處理特定領域的術語或文化表達時。

最少到最多技術

最少到最多技術是一種強大的方法，用於生成或提取逐漸詳細的知識。這種方法在處理複雜主題或需要高細節水平時尤其有效。

規劃架構

在開始架構設計之前，瞭解Flask是什麼很重要。Flask是一個輕量級的Python網頁應用框架，廣泛用於快速建立網頁應用程式。

基本Flask “Hello World"應用程式架構

匯入Flask模組：匯入Flask模組以使用其功能。
建立Flask應用程式例項：建立Flask類別的例項以代表網頁應用程式。
定義路由和檢視函式：定義路由和檢視函式以處理HTTP請求。
實作檢視函式：實作檢視函式以傳回"Hello World"訊息。
執行應用程式：啟動Flask開發伺服器以執行應用程式。

Mermaid 圖表

  graph LR
    A[匯入Flask模組] --> B[建立Flask應用程式例項]
    B --> C[定義路由和檢視函式]
    C --> D[實作檢視函式]
    D --> E[執行應用程式]

圖表翻譯

此Mermaid圖表展示了建立基本Flask “Hello World"應用程式的步驟。從匯入Flask模組開始，然後建立Flask應用程式例項，定義路由和檢視函式，實作檢視函式，最後執行應用程式。這個圖表提供了一個清晰的視覺化表示，説明瞭Flask應用程式的架構和流程。

從技術架構視角來看，本文涵蓋了從簡單分塊到滑動視窗，再到根據tiktoken的tokenization等多種NLP文字處理技術。分析不同分塊方法的特性及優缺點，可以發現，簡單分塊雖然易於實作，但缺乏上下文關聯性；滑動視窗則在保留上下文資訊的同時，增加了計算複雜度。tiktoken的出現，則為準確的token計算提供了有效工具，尤其在與OpenAI模型互動時，能有效控制資源消耗。然而，即使是tiktoken，在處理對話式API呼叫時，也需要根據模型版本和訊息結構進行調整，才能準確估算token數量。技術限制方面，情感分析的準確性仍面臨挑戰，例如反諷和特定情境情感的識別。雖然文字預處理技術如特殊字元刪除、大小寫轉換和拼寫糾錯能有所改善，但仍需更精細的演算法和模型。展望未來，隨著深度學習技術的發展，預計自然語言理解能力將持續提升，情感分析的準確性和效率也將得到顯著改善。對於NLP開發者而言，深入理解不同分塊演算法的特性、掌握tiktoken的使用方法，並關注情感分析領域的最新進展，將是提升技術能力的關鍵。玄貓認為，結合更進階的上下文感知模型和更精細的文字預處理技術，將是未來NLP技術突破的重要方向。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。