文字嵌入技術詳解：梯度下降、Word2Vec 與 FastText

在自然語言處理領域，理解和處理文字資料的關鍵技術之一是文字嵌入。它將文字轉換為向量，使電腦能夠理解文字的語義和關係。本文將深入探討梯度下降法在文字嵌入中的應用，並分析 Word2Vec 和 FastText 兩種重要的文字嵌入技術。梯度下降法是一種常用的最佳化演算法，用於調整模型引數以最小化損失函式。在文字嵌入中，我們使用梯度下降法來更新詞向量，使其更好地反映詞彙之間的語義關係。隨機梯度下降法（SGD）在大規模資料集上更高效，每次迭代只使用一個樣本來更新引數。

Word2Vec 是一種根據預測的文字嵌入技術，它利用詞彙的上下文來學習詞向量。Word2Vec 有兩種模型：CBOW 和 Skip-gram。CBOW 模型根據上下文預測目標詞彙，而 Skip-gram 模型則根據目標詞彙預測上下文。FastText 是 Word2Vec 的一種延伸，它將詞彙視為字元的 n-gram 集合，可以學習到詞彙的形態資訊，並能有效處理罕見詞彙和未登入詞。

為了更直觀地理解詞嵌入的結果，可以使用 TensorFlow Embedding Projector 進行視覺化。它將詞向量投影到二維或三維空間中，以便觀察詞彙之間的距離和關係。此外，在處理詞嵌入的向量空間檔案時，需要仔細處理檔案格式和內容，例如使用正規表示式解析向量座標和標籤。

梯度下降法的數學推導

在機器學習中，梯度下降法是一種常用的最佳化演算法，用於找到模型的最佳引數。以下是梯度下降法的數學推導。

損失函式

假設我們有一個損失函式 $L(w, c)$，它代表了模型的預測值與真實值之間的差異。其中，$w$ 是模型的權重，$c$ 是輸入的特徵值。

梯度計算

要找到最佳的權重 $w$ 和特徵值 $c$，我們需要計算損失函式對於 $w$ 和 $c$ 的梯度。根據鏈式法則，梯度可以計算如下：

$$ \frac{\partial L}{\partial w} = \frac{\partial L}{\partial \sigma} \cdot \frac{\partial \sigma}{\partial (c \cdot w)} \cdot \frac{\partial (c \cdot w)}{\partial w} $$

$$ \frac{\partial L}{\partial c} = \frac{\partial L}{\partial \sigma} \cdot \frac{\partial \sigma}{\partial (c \cdot w)} \cdot \frac{\partial (c \cdot w)}{\partial c} $$

啟用函式

假設我們使用 sigmoid 啟用函式，則有：

$$ \sigma(x) = \frac{1}{1 + e^{-x}} $$

對於 sigmoid 啟用函式，梯度可以計算如下：

$$ \frac{\partial \sigma}{\partial x} = \sigma(x) \cdot (1 - \sigma(x)) $$

梯度下降法

梯度下降法的更新規則如下：

$$ w_{t+1} = w_t - \alpha \cdot \frac{\partial L}{\partial w} $$

$$ c_{t+1} = c_t - \alpha \cdot \frac{\partial L}{\partial c} $$

其中，$\alpha$ 是學習率。

實際應用

在實際應用中，梯度下降法可以用於訓練神經網路模型。例如，假設我們有一個簡單的神經網路模型，輸入層有 $n$ 個節點，隱藏層有 $m$ 個節點，輸出層有 $k$ 個節點。則模型的權重 $w$ 和特徵值 $c$ 可以如下：

$$ w = \begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1n} \ w_{21} & w_{22} & \cdots & w_{2n} \ \vdots & \vdots & \ddots & \vdots \ w_{m1} & w_{m2} & \cdots & w_{mn} \end{bmatrix} $$

$$ c = \begin{bmatrix} c_1 \ c_2 \ \vdots \ c_n \end{bmatrix} $$

則梯度下降法的更新規則如下：

$$ w_{t+1} = w_t - \alpha \cdot \frac{\partial L}{\partial w} $$

$$ c_{t+1} = c_t - \alpha \cdot \frac{\partial L}{\partial c} $$

其中，$\frac{\partial L}{\partial w}$ 和 $\frac{\partial L}{\partial c}$ 可以使用鏈式法則和啟用函式的梯度計算得到。

內容解密：

以上的數學推導展示了梯度下降法的基本原理和更新規則。透過計算損失函式對於權重和特徵值的梯度，然後使用梯度下降法的更新規則更新權重和特徵值，模型可以找到最佳的引數以最小化損失函式。

import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

def gradient_descent(w, c, alpha, iterations):
    for i in range(iterations):
        # 計算梯度
        gradient_w = np.dot(c.T, (sigmoid(np.dot(c, w)) - 1))
        gradient_c = np.dot(w.T, (sigmoid(np.dot(c, w)) - 1))
        
        # 更新權重和特徵值
        w -= alpha * gradient_w
        c -= alpha * gradient_c
    
    return w, c

# 初始化權重和特徵值
w = np.random.rand(3, 4)
c = np.random.rand(4, 1)

# 設定學習率和迭代次數
alpha = 0.01
iterations = 1000

# 執行梯度下降法
w, c = gradient_descent(w, c, alpha, iterations)

print("最終權重：")
print(w)
print("最終特徵值：")
print(c)

圖表翻譯：

以下的Mermaid圖表展示了梯度下降法的流程：

  graph LR
    A[初始化權重和特徵值] --> B[計算梯度]
    B --> C[更新權重和特徵值]
    C --> D[重複迭代]
    D --> E[最終權重和特徵值]

此圖表展示了梯度下降法的基本流程，包括初始化權重和特徵值、計算梯度、更新權重和特徵值、重複迭代直到收斂。

文字向量嵌入的最佳化

在文字向量嵌入的過程中，最佳化演算法的選擇至關重要。梯度下降法是一種常用的最佳化方法，但是在大規模的語言模型中，傳統的梯度下降法可能會面臨效率問題。為瞭解決這個問題，我們可以使用隨機梯度下降法（Stochastic Gradient Descent, SGD）。

隨機梯度下降法

隨機梯度下降法是一種特殊的梯度下降法，它每次只考慮一個樣本，而不是整個資料集。這種方法可以大大提高最佳化的效率，尤其是在大規模的資料集上。

在文字向量嵌入的過程中，我們可以使用隨機梯度下降法來更新模型的引數。具體來說，我們可以按照以下步驟進行：

初始化模型的引數，包括權重向量 $w$ 和背景向量 $c$。
選擇一個隨機的樣本，例如一個詞彙 $c$ 和其對應的背景詞彙 $c’$。
計算梯度，並更新模型的引數，包括 $w$、$c$ 和 $c’$。
重複步驟 2-3，直到整個資料集都被遍歷了一遍。

更新規則

更新規則如下：

$$ \begin{aligned} w &\leftarrow w - \eta(\sigma(c \cdot w) - 1)c + \sum_{i=1}^{K} \sigma(c’_i \cdot w)c’_i \ c &\leftarrow c - \eta(\sigma(c \cdot w) - 1)w \ c’_i &\leftarrow c’_i - \eta\sigma(c’_i \cdot w)w \end{aligned} $$

其中，$\eta$ 是學習率，$\sigma$ 是啟用函式，$c$ 和 $c’$ 分別是目標詞彙和背景詞彙，$w$ 是權重向量。

矩陣構建

一旦我們完成了對整個資料集的遍歷，我們就可以使用得到的向量來構建矩陣 $W$ 和 $C$。其中，$W$ 的行向量代表目標詞彙，$C$ 的行向量代表背景詞彙。

最終，嵌入矩陣可以透過 $W$ 和 $C$ 的組合來構建。這個嵌入矩陣可以用於各種自然語言處理任務，例如詞彙相似度計算和文字分類。

內容解密：

上述過程描述瞭如何使用隨機梯度下降法來最佳化文字向量嵌入模型的引數。這個過程包括初始化模型引數、選擇隨機樣本、計算梯度和更新模型引數等步驟。最終，得到的向量可以用來構建嵌入矩陣，從而實作文字向量嵌入的功能。

圖表翻譯：

下面是使用 Mermaid 語法繪製的文字向量嵌入過程圖表：

  graph LR
    A[初始化模型引數] --> B[選擇隨機樣本]
    B --> C[計算梯度]
    C --> D[更新模型引數]
    D --> E[構建嵌入矩陣]
    E --> F[輸出嵌入結果]

這個圖表展示了文字向量嵌入的整個過程，從初始化模型引數到輸出嵌入結果。

詞彙類比

詞彙嵌入（Word Embeddings）可以透過向量的餘弦相似度來衡量詞彙之間的相關性。但它們還有一個更有趣的特性，稱為詞彙類比。這個想法是，每種詞彙之間的關係都對應於高維空間中的一個向量。例如，有一個向量代表從單數到複數的轉換，另一個向量代表從女性到男性的轉換等等。

生成詞彙嵌入

以下是使用gensim套件生成詞彙嵌入的程式碼：

from gensim.test.utils import datapath
from gensim import utils
import gensim.models

class MyCorpus:
    """An iterator that yields sentences (lists of str)."""
    def __iter__(self):
        corpus_path = datapath('<absolute path>/dr-who.txt')
        for line in open(corpus_path):
            yield utils.simple_preprocess(line)

sentences = MyCorpus()
model = gensim.models.Word2Vec(sentences=sentences)
model.save("dr-who.model")

在這段程式碼中，datapath函式用於載入語料函式庫檔案，MyCorpus類別用於生成句子迭代器，Word2Vec模型用於生成詞彙嵌入。

詞彙類比

現在，我們可以使用生成的詞彙嵌入來測試詞彙類比的特性。以下是程式碼：

from gensim.models import Word2Vec

model = Word2Vec.load("dr-who.model")

# 應用“複數 → 單數”向量到“women”和“daleks”
women_vector = model.wv["women"]
daleks_vector = model.wv["daleks"]
plural_to_singular_vector = women_vector - model.wv["woman"]

# 應用“男性 → 女性”向量到“boy”
boy_vector = model.wv["boy"]
male_to_female_vector = boy_vector - model.wv["girl"]

# 找到最接近的詞彙
similar_words = model.wv.similar_by_vector(women_vector + plural_to_singular_vector)
print(similar_words)

similar_words = model.wv.similar_by_vector(daleks_vector + plural_to_singular_vector)
print(similar_words)

similar_words = model.wv.similar_by_vector(boy_vector + male_to_female_vector)
print(similar_words)

在這段程式碼中，我們載入生成的詞彙嵌入模型，然後應用詞彙類比向量到不同的詞彙。最後，我們找到最接近的詞彙，並列印預出結果。

圖表翻譯：

  graph LR
    A[詞彙嵌入] --> B[詞彙類比]
    B --> C[複數 → 單數]
    B --> D[男性 → 女性]
    C --> E[woman]
    D --> F[girl]

這個圖表展示了詞彙嵌入和詞彙類比之間的關係，以及詞彙類比向量的應用。

Word2Vec嵌入分析

Word2Vec是一種詞嵌入技術，能夠將詞彙對映到高維向量空間中，以便於捕捉詞彙之間的語義關係。以下程式碼示範瞭如何使用Word2Vec進行詞嵌入分析：

from gensim.models import Word2Vec

# 載入預訓練的Word2Vec模型
model = Word2Vec.load("dr-who.model")

# 取得詞彙的向量表示
men = model.wv['men']
man = model.wv['man']
women = model.wv['women']
woman = model.wv['woman']
boy = model.wv['boy']
daleks = model.wv['daleks']

# 進行詞彙相似度分析
print(model.wv.similar_by_vector(women + (man - men), topn=10))
print(model.wv.similar_by_vector(daleks + (man - men), topn=10))
print(model.wv.similar_by_vector(boy + (woman - man), topn=10))

這段程式碼載入了一個預訓練的Word2Vec模型，並使用它來分析詞彙之間的語義關係。結果顯示，詞彙「women」和「man」之間的相似度很高，且詞彙「woman」和「girl」也出現在結果中。然而，詞彙「daleks」和「man」之間的相似度很低，且詞彙「creature」和「mara」出現在結果中。

Skip-gram嵌入

Skip-gram是一種詞嵌入演算法，能夠捕捉詞彙之間的語義關係。以下是Skip-gram嵌入的工作原理：

將詞彙對映到高維向量空間中。
使用詞彙的上下文來更新詞彙的向量表示。
重複步驟2，直到收斂。

Skip-gram嵌入可以捕捉詞彙之間的語義關係，例如詞彙「women」和「man」之間的相似度很高。

結果分析

結果顯示，詞彙「women」和「man」之間的相似度很高，且詞彙「woman」和「girl」也出現在結果中。然而，詞彙「daleks」和「man」之間的相似度很低，且詞彙「creature」和「mara」出現在結果中。

這些結果表明，Word2Vec嵌入可以有效地捕捉詞彙之間的語義關係。然而，詞彙「daleks」和「man」之間的相似度很低，可能是因為詞彙「daleks」是一個特指的詞彙，且其語義關係與其他詞彙不同。

圖表翻譯

以下是Skip-gram嵌入的Mermaid圖表：

  graph LR
    A[詞彙] --> B[高維向量空間]
    B --> C[詞彙相似度分析]
    C --> D[結果]

這個圖表顯示了Skip-gram嵌入的工作原理，從詞彙對映到高維向量空間，然後進行詞彙相似度分析，最終得到結果。

內容解密

Skip-gram嵌入是一種詞嵌入演算法，能夠捕捉詞彙之間的語義關係。結果顯示，詞彙「women」和「man」之間的相似度很高，且詞彙「woman」和「girl」也出現在結果中。然而，詞彙「daleks」和「man」之間的相似度很低，且詞彙「creature」和「mara」出現在結果中。

文字嵌入（Word Embeddings）技術分析

文字嵌入是一種將文字轉換為數字向量的技術，讓電腦能夠理解文字的意義和關係。在這篇文章中，我們將探討兩種文字嵌入技術：mini-embedding和GloVe。

Mini-Embedding

Mini-embedding是一種簡單的文字嵌入技術，使用詞頻和詞序來計算文字的向量。然而，這種技術有一個缺點：它不能很好地捕捉文字的語義關係。例如，當我們查詢與「women」相關的文字時，mini-embedding傳回的結果包括「mummy」、「mum」、「tegan」和「sarah」，但不包括「girl」。

GloVe

GloVe是一種流行的文字嵌入技術，使用全域性向量來表示文字。它的訓練資料包括2014年英語維基百科和Gigaword 5語料函式庫，總共6億個token和40萬個詞彙。GloVe的向量維度可以選擇，例如100維或300維。

使用GloVe，我們可以查詢與「women」相關的文字，結果包括「woman」、「man」、「child」、「life」、「girl」等。這些結果表明GloVe能夠很好地捕捉文字的語義關係。

比較Mini-Embedding和GloVe

Mini-embedding和GloVe都可以用來查詢相關文字，但GloVe的結果更為準確和豐富。GloVe的向量維度可以選擇，允許使用者根據需要調整向量的大小。

視覺化嵌入

有許多工具可以用來視覺化嵌入，例如TensorFlow的Embedding Projector。這些工具可以幫助使用者瞭解文字的語義關係和嵌入的結構。

內容解密：

Mini-embedding是一種簡單的文字嵌入技術，使用詞頻和詞序來計算文字的向量。
GloVe是一種流行的文字嵌入技術，使用全域性向量來表示文字。
使用GloVe可以查詢與「women」相關的文字，結果包括「woman」、「man」、「child」、「life」、「girl」等。
GloVe的向量維度可以選擇，允許使用者根據需要調整向量的大小。

圖表翻譯：

以下是使用Mermaid語法繪製的GloVe嵌入圖表：

  graph LR
    A[文字] --> B[詞頻]
    B --> C[詞序]
    C --> D[向量]
    D --> E[GloVe]
    E --> F[查詢相關文字]
    F --> G[結果]

這個圖表展示了GloVe嵌入的過程，從文字到詞頻、詞序、向量，最終到查詢相關文字和結果。

使用TensorFlow的Embedding Projector進行詞嵌入視覺化

在進行詞嵌入視覺化時，TensorFlow的Embedding Projector是一個非常有用的工具。它允許使用者將詞嵌入視覺化為二維或三維空間中的點，從而更容易地理解詞之間的語義關係。

準備詞嵌入資料

要使用Embedding Projector，需要準備兩個檔案：一個包含詞嵌入的向量坐標，另一個包含對應的詞彙。這兩個檔案需要按照特定的格式組織，才能被Embedding Projector正確地讀取和處理。

將Word2Vec模型轉換為相容格式

如果您使用的是Word2Vec模型，需要將其轉換為Embedding Projector相容的格式。這可以透過以下步驟實作：

載入Word2Vec模型：使用Word2Vec.load()方法載入您已經訓練好的Word2Vec模型。
儲存詞嵌入：使用model.wv.save_word2vec_format()方法將詞嵌入儲存為文字檔案，設定binary=False以確保檔案為文字格式。

import io
from gensim.models import Word2Vec
from gensim.models import KeyedVectors

# 載入Word2Vec模型
model = Word2Vec.load("dr-who.model")

# 儲存詞嵌入為文字檔案
model.wv.save_word2vec_format('vectors.kv', binary=False)

處理詞嵌入檔案

接下來，需要將儲存的詞嵌入檔案轉換為Embedding Projector所需的格式。這涉及到建立兩個新檔案：一個包含詞嵌入的向量坐標，另一個包含對應的詞彙。

# 開啟詞嵌入檔案和目標檔案
f = io.open("vectors.kv", mode='r', encoding='utf-8')
o1 = io.open("vectors.tsv", mode='w', encoding='utf-8')
o2 = io.open("metadata.tsv", mode='w', encoding='utf-8')

# 處理詞嵌入檔案
for line in f:
    # 處理每一行，提取詞嵌入和詞彙
    # ...
    # 將處理結果寫入目標檔案
    o1.write(...)  # 向量坐標
    o2.write(...)  # 詞彙

上傳檔案到Embedding Projector

最後，將轉換好的檔案上傳到Embedding Projector，然後就可以進行詞嵌入的視覺化了。

圖表翻譯：

此圖示為使用Embedding Projector進行詞嵌入視覺化的過程。透過上傳詞嵌入檔案和詞彙檔案，Embedding Projector可以將詞嵌入視覺化為二維或三維空間中的點，從而更容易地理解詞之間的語義關係。

  flowchart TD
    A[載入Word2Vec模型] --> B[儲存詞嵌入]
    B --> C[處理詞嵌入檔案]
    C --> D[上傳檔案到Embedding Projector]
    D --> E[進行詞嵌入視覺化]

內容解密：

上述過程涉及到將Word2Vec模型轉換為相容Embedding Projector的格式，然後上傳檔案進行視覺化。這個過程可以幫助使用者更好地理解詞嵌入的語義關係，從而更有效地應用詞嵌入技術。

處理向量空間的檔案

在處理向量空間的檔案時，需要小心地處理檔案的格式和內容。以下是一個範例程式碼，展示如何使用 Python 和正規表示式來處理這種檔案：

import re

# 開啟輸入檔案
with open('input.txt', 'r') as f:
    # 開啟輸出檔案
    with open('output1.txt', 'w') as o1, open('output2.txt', 'w') as o2:
        # 讀取輸入檔案的每一行
        for l in f:
            # 判斷是否為檔案頭部（包含向量數和維度）
            if re.match(r'^[0-9]+ [0-9]+', l):
                pass  # 忽略檔案頭部
            # 判斷是否為向量
            elif re.match(r'^([^ ]+) ([0-9e. -]+)', l):
                # 解析向量
                m = re.match(r'^([^ ]+) ([0-9e. -]+)', l)
                # 將向量的座標分割並寫入 output1.txt
                print("\t".join(m.group(2).split()), file=o1)
                # 將向量的標籤寫入 output2.txt
                print(m.group(1), file=o2)
        # 關閉輸入檔案
        f.close()
        # 關閉輸出檔案
        o1.close()
        o2.close()

在這個範例中，我們使用正規表示式來判斷每一行是否為檔案頭部或向量。如果是檔案頭部，我們忽略它。如果是向量，我們解析它並將其座標和標籤分別寫入兩個不同的檔案中。

內容解密：

這個程式碼使用正規表示式來解析向量空間的檔案。檔案的格式為每一行代表一個向量，向量的座標和標籤分別由空格分割。程式碼使用 re.match() 函式來判斷每一行是否為檔案頭部或向量。如果是檔案頭部，程式碼忽略它。如果是向量，程式碼使用 re.match() 函式來解析向量的座標和標籤，並將其分別寫入兩個不同的檔案中。

圖表翻譯：

以下是程式碼的流程圖：

  flowchart TD
    A[讀取輸入檔案] --> B[判斷檔案頭部]
    B -->|是| C[忽略檔案頭部]
    B -->|否| D[判斷向量]
    D -->|是| E[解析向量]
    E --> F[寫入向量座標]
    E --> G[寫入向量標籤]
    F --> H[關閉輸出檔案]
    G --> H
    C --> H

這個流程圖展示了程式碼的邏輯流程，從讀取輸入檔案開始，判斷檔案頭部，解析向量，寫入向量座標和標籤，最終關閉輸出檔案。

文字嵌入技術：Word2Vec 和 FastText

文字嵌入（Word Embedding）是一種自然語言處理（NLP）技術，旨在將文字轉換為向量，以便於電腦理解和處理。Word2Vec 和 FastText 是兩種常用的文字嵌入技術。

Word2Vec

Word2Vec 是一種根據神經網路的文字嵌入技術，旨在學習文字之間的語義關係。它使用兩種模型：CBOW（Continuous Bag of Words）和 Skip-Gram。CBOW 模型使用上下文文字預測目標文字，而 Skip-Gram 模型使用目標文字預測上下文文字。

Word2Vec 的優點是：

能夠學習文字之間的語義關係
能夠處理大規模的文字資料

但是，Word2Vec 也有一些缺點：

需要大量的計算資源
不適合處理罕見的文字

從技術架構視角來看，Word2Vec 和 FastText 作為主流的詞嵌入技術，各有其優劣。Word2Vec 根據詞彙層級的嵌入，擅長捕捉詞彙間的語義關係，但在處理未登入詞彙和形態豐富的語言時略顯不足。FastText 則引入了子詞資訊，有效解決了 OOV (Out-of-Vocabulary) 問題，並提升了模型在形態學方面的表現，但其向量表示的精確度在某些任務中可能略遜於 Word2Vec。對於需要處理大量未登入詞或形態變化較大語言的應用，FastText 更具優勢；而對於詞彙量相對穩定且注重語義精確度的場景，Word2Vec 則更為適用。技術團隊在選擇詞嵌入技術時，應根據具體應用場景和需求，權衡模型的效能和資源消耗，選擇最合適的方案。未來，隨著研究的深入，預計詞嵌入技術將更精細地整合語義和形態資訊，並在處理多語言和跨領域文字方面取得更大突破。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。