大語言模型微調與評估

隨著大語言模型的興起，如何有效地微調與評估這些模型成為重要的課題。本文將會介紹如何準備資料、微調模型，並使用不同的評估方法來衡量模型的效能。首先，我們會討論資料準備的步驟，包含資料集的下載、格式化、以及建立資料載入器。接著，會深入探討如何載入預訓練模型，並在特定任務上進行微調。微調的過程中，會使用 PyTorch 和 Transformers 函式庫，並示範如何調整超引數和監控訓練過程。最後，我們將會探討不同的評估方法，例如計算損失函式、進行質性評估，以及使用 Ollama 等工具進行自動化評估。

進階模型微調

在進行模型微調之前，我們需要準備好資料集和載入預訓練模型。接下來，我們將對模型進行微調，以使其能夠遵循指令。

微調過程

微調的目標是使模型能夠學習指令並產生正確的輸出。為了實作這個目標，我們需要計算模型在訓練集和驗證集上的初始損失。

# 匯入必要的函式
from chapter05 import calc_loss_loader, train_model_simple

# 將模型移到指定裝置（GPU或CPU）
model.to(device)

# 計算初始損失
initial_train_loss = calc_loss_loader(model, train_loader)
initial_val_loss = calc_loss_loader(model, val_loader)

print(f"初始訓練損失：{initial_train_loss}")
print(f"初始驗證損失：{initial_val_loss}")

訓練模型

有了初始損失的計算結果後，我們可以開始訓練模型。訓練的目標是使模型的損失函式最小化，從而提高模型的效能。

# 訓練模型
train_model_simple(model, train_loader, val_loader, device)

模型評估

訓練完成後，我們需要評估模型的效能。評估的目標是確定模型是否能夠正確地遵循指令並產生預期的輸出。

# 評估模型
model.eval()
with torch.no_grad():
    total_correct = 0
    for batch in test_loader:
        inputs, labels = batch
        inputs, labels = inputs.to(device), labels.to(device)
        outputs = model(inputs)
        _, predicted = torch.max(outputs, 1)
        total_correct += (predicted == labels).sum().item()

accuracy = total_correct / len(test_loader.dataset)
print(f"測試精確度：{accuracy:.2f}%")

資料提取和檢查

除了評估模型的效能外，我們還需要提取和檢查模型的輸出結果，以確保它們符合預期。

# 提取和檢查輸出結果
with torch.no_grad():
    for batch in test_loader:
        inputs, labels = batch
        inputs, labels = inputs.to(device), labels.to(device)
        outputs = model(inputs)
        _, predicted = torch.max(outputs, 1)
        print(f"輸出結果：{predicted}")

定性評估

最後，我們需要進行定性評估，以確保模型的輸出結果符合預期。

# 定性評估
with torch.no_grad():
    for batch in test_loader:
        inputs, labels = batch
        inputs, labels = inputs.to(device), labels.to(device)
        outputs = model(inputs)
        _, predicted = torch.max(outputs, 1)
        print(f"定性評估結果：{predicted}")

圖表翻譯：

以下是微調過程中的損失函式變化圖。

  flowchart TD
    A[初始損失] --> B[訓練過程]
    B --> C[損失函式最小化]
    C --> D[模型評估]
    D --> E[定性評估]

內容解密：

以上程式碼展示瞭如何對模型進行微調和評估。首先，我們計算了初始損失，然後對模型進行了訓練。訓練完成後，我們評估了模型的效能，並提取和檢查了輸出結果。最後，我們進行了定性評估，以確保模型的輸出結果符合預期。

訓練大語言模型的挑戰和解決方案

在訓練大語言模型（LLM）時，硬體限制可能是一個重大挑戰。使用更大的模型，如GPT-2中型（355百萬引數），比起較小的GPT-2模型（124百萬引數）需要更多的計算資源。如果您遇到硬體限制問題，可以考慮切換到較小的模型，例如從 "gpt2-medium (355M)" 切換到 "gpt2-small (124M)"。

硬體選擇和效能最佳化

以下表格提供了在不同硬體裝置上訓練GPT-2模型的參考執行時間，包括CPU和GPU。執行此程式碼在相容的GPU上無需進行任何程式碼修改，並且可以顯著加速訓練過程。為了獲得本章節中的結果，我使用了GPT-2中型模型，並在A100 GPU上進行了訓練。

微調LLM模型

有了模型和資料載入器的準備，就可以開始訓練模型了。清單7.8中的程式碼設定了訓練過程，包括初始化最佳化器、設定epoch數量、定義評估頻率以及開始上下文以評估在訓練期間生成的LLM回應，根據第一個驗證集指令（val_data[0]）。

import time

start_time = time.time()

訓練過程初始化

在初始化訓練過程時，需要考慮多個因素，包括最佳化器的選擇、學習率的設定以及批次大小的選擇。這些引數對模型的收斂速度和最終效能有著重要影響。

評估頻率和開始上下文

定義評估頻率和開始上下文對於監控模型在訓練過程中的效能和調整超引數至關重要。這可以幫助我們及時發現模型的不足並進行調整，以達到最佳的訓練效果。

程式碼實作

以下是初始化訓練過程和評估模型的程式碼片段：

# 初始化最佳化器
optimizer = torch.optim.Adam(model.parameters(), lr=1e-4)

# 設定epoch數量
num_epochs = 5

# 定義評估頻率
eval_freq = 100

# 設定開始上下文
start_context = val_data[0]

# 訓練模型
for epoch in range(num_epochs):
    # 訓練過程
    model.train()
    for batch in train_loader:
        # 前向傳播
        inputs, labels = batch
        inputs, labels = inputs.to(device), labels.to(device)
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = calc_loss(outputs, labels)
        loss.backward()
        optimizer.step()
    
    # 評估模型
    model.eval()
    with torch.no_grad():
        eval_loss = calc_loss_loader(val_loader, model, device)
        print(f"Epoch {epoch+1}, Eval Loss: {eval_loss}")

訓練模型和評估其表現

在上面的程式碼中，我們使用 torch.optim.AdamW 最佳化器和 train_model_simple 函式來訓練模型。訓練過程中，我們會看到訓練損失和驗證損失的變化情況。這些損失值可以幫助我們評估模型的學習效果。

import torch
import torch.optim as optim

# 設定隨機種子以確保可重現性
torch.manual_seed(123)

# 定義最佳化器
optimizer = optim.AdamW(model.parameters(), lr=0.00005, weight_decay=0.1)

# 設定訓練引數
num_epochs = 2

# 進行訓練
train_losses, val_losses, tokens_seen = train_model_simple(
    model, train_loader, val_loader, optimizer, device,
    num_epochs=num_epochs, eval_freq=5, eval_iter=5,
    start_context=format_input(val_data[0]), tokenizer=tokenizer
)

觀察訓練過程和結果

訓練過程中，會列印預出每個epoch和step的訓練損失和驗證損失。這些資訊可以幫助我們瞭解模型的學習情況。另外，訓練完成後，我們還會看到執行時間和模型對特定任務的回應。

end_time = time.time()
execution_time_minutes = (end_time - start_time) / 60
print(f"Training completed in {execution_time_minutes:.2f} minutes.")

評估模型的回應品質

除了觀察損失值外，我們還需要評估模型對特定任務的回應品質。例如，給定一個指令，模型能否生成正確的回應？這些評估有助於我們瞭解模型的學習效果和實際應用能力。


### Instruction: Convert the active sentence to passive: 'The chef cooks the meal every day.'

### Response: The meal is cooked every day by 玄貓.

分析訓練和驗證損失曲線

最後，我們可以使用損失曲線來分析模型的學習過程。這有助於我們瞭解模型是否過度擬合或欠擬合，並且可以根據這些資訊調整模型的引數或訓練策略。

plot_losses(train_losses, val_losses)

透過上述步驟，我們可以全面地評估和改進模型的效能，從而達到更好的任務完成效果。

使用PyTorch和Transformers進行模型微調

在本文中，我們將使用PyTorch和Transformers函式庫對大語言模型（LLM）進行微調，以使其能夠遵循指令。這個過程涉及到對模型進行訓練，以便它能夠生成高品質的回應。

微調模型

首先，我們需要將模型微調在訓練資料集上。這個過程涉及到對模型的引數進行更新，以便它能夠最小化損失函式。

import torch
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

# 載入預訓練模型和tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("t5-base")
tokenizer = AutoTokenizer.from_pretrained("t5-base")

# 定義訓練引數
num_epochs = 2
batch_size = 8
max_length = 1024

# 建立訓練資料集
train_data =...

# 建立驗證資料集
val_data =...

# 對模型進行微調
for epoch in range(num_epochs):
    model.train()
    total_loss = 0
    for batch in train_data:
        input_ids = batch["input_ids"].to(device)
        attention_mask = batch["attention_mask"].to(device)
        labels = batch["labels"].to(device)
        
        optimizer = torch.optim.Adam(model.parameters(), lr=1e-5)
        
        optimizer.zero_grad()
        
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss
        
        loss.backward()
        optimizer.step()
        
        total_loss += loss.item()
    
    print(f"Epoch {epoch+1}, Loss: {total_loss / len(train_data)}")
    
    model.eval()
    val_loss = 0
    with torch.no_grad():
        for batch in val_data:
            input_ids = batch["input_ids"].to(device)
            attention_mask = batch["attention_mask"].to(device)
            labels = batch["labels"].to(device)
            
            outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
            loss = outputs.loss
            
            val_loss += loss.item()
    
    print(f"Epoch {epoch+1}, Val Loss: {val_loss / len(val_data)}")

評估模型

在微調模型之後，我們需要評估它的效能。這個過程涉及到對模型生成的回應進行評估。

# 對模型進行評估
test_data =...

model.eval()
with torch.no_grad():
    for entry in test_data:
        input_text = format_input(entry)
        token_ids = generate(
            model=model,
            idx=text_to_token_ids(input_text, tokenizer).to(device),
            max_new_tokens=256,
            context_size=BASE_CONFIG["context_length"],
            eos_id=50256
        )
        generated_text = token_ids_to_text(token_ids, tokenizer)
        
        response_text = (
            generated_text[len(input_text):]
           .replace("### Response:", "")
           .strip()
        )
        
        print(f"Input: {input_text}")
        print(f"Response: {response_text}")

圖表翻譯：

以下是微調模型的流程圖：

  flowchart TD
    A[載入預訓練模型和tokenizer] --> B[定義訓練引數]
    B --> C[建立訓練資料集]
    C --> D[建立驗證資料集]
    D --> E[對模型進行微調]
    E --> F[評估模型]
    F --> G[輸出結果]

內容解密：

在上述程式碼中，我們使用了PyTorch和Transformers函式庫對大語言模型進行微調。首先，我們載入了預訓練模型和tokenizer，然後定義了訓練引數。接下來，我們建立了訓練資料集和驗證資料集。然後，我們對模型進行了微調，使用了Adam最佳化器和交叉熵損失函式。在微調之後，我們評估了模型的效能，使用了驗證資料集。最後，我們輸出了模型生成的回應。

在評估模型的過程中，我們使用了generate函式生成回應，然後使用了token_ids_to_text函式將token ids轉換為文字。接下來，我們使用了replace函式和strip函式處理生成的文字，然後輸出了結果。

圖表翻譯：

以下是評估模型的流程圖：

  flowchart TD
    A[載入測試資料集] --> B[對模型進行評估]
    B --> C[生成回應]
    C --> D[處理生成的文字]
    D --> E[輸出結果]

資料準備與模型微調

在開始任何機器學習或自然語言處理任務之前，資料的準備和模型的選擇都是非常重要的步驟。以下是資料準備和模型微調的詳細流程：

資料準備

資料下載和格式化：首先，我們需要下載所需的資料集。這些資料集可能來自公開的資料函式庫、網路爬蟲，或是自己收集的資料。下載完成後，需要將資料格式化，以便於後續的處理。這包括清理資料、處理缺失值、進行必要的編碼等步驟。
建立資料載入器：為了方便資料的存取和批次處理，建立資料載入器（Data Loader）是必要的。資料載入器可以幫助我們有效地管理資料，特別是在面對大型資料集時。
載入預訓練模型：利用預訓練的大語言模型（LLM）可以大大減少我們從頭開始訓練模型所需的時間和資源。這些預訓練模型已經在大量的文字資料上進行了訓練，因此具有很強的語言理解能力。
微調預訓練模型：雖然預訓練模型很強大，但它們可能不是完全適合我們特定的任務。為了提高模型在特定任務上的效能，我們需要對模型進行微調（Fine-tuning）。這涉及到在我們自己的資料集上對模型進行額外的訓練，以適應特定的任務需求。
評分回應：在微調過程中，評估模型對不同輸入的回應是非常重要的。這有助於我們瞭解模型的效能，並根據評分結果進行必要的調整。

微調階段

在微調階段，我們集中於提高模型在特定任務上的效能。這包括選擇合適的超引數、監控模型的效能，並根據需要進行調整。

評估階段

評估階段是整個流程中的最後一步。在這一步中，我們會對模型進行全面評估，以確保它能夠滿足我們的需求。這包括提取相關的指標和資料，以便於評估模型的效能。

圖表翻譯：

  graph LR
    A[資料下載] --> B[資料格式化]
    B --> C[建立資料載入器]
    C --> D[載入預訓練模型]
    D --> E[微調預訓練模型]
    E --> F[評分回應]
    F --> G[評估模型]

內容解密：

以上流程圖展示了從資料準備到模型評估的整個過程。每一步驟都對於最終取得高效能的模型至關重要。從資料下載和格式化開始，到建立資料載入器、載入預訓練模型、微調預訓練模型、評分回應，最後到評估模型，每一步都需要小心謹慎地執行，以確保最終結果的品質。

模型評估流程

在模型訓練完成後，我們需要進行評估，以確定模型的效能。評估流程包括兩個主要部分：檢查模型的損失函式（modeling loss）和進行質性評估（qualitative evaluation）。

模型損失檢查

檢查模型的損失函式是評估模型效能的重要一步。透過分析模型在訓練和測試集上的損失值，我們可以瞭解模型的學習情況和預測能力。

質性評估

質性評估是透過比較模型的輸出與正確輸出來評估模型效能的方法。具體步驟如下：

提取模型輸出：從我們微調的語言模型（LLM）中提取輸出結果。
迭代測試集樣本：選取測試集中的前三個樣本，作為質性評估的物件。
使用生成函式：利用在第7.5節中匯入的生成函式，產生模型的輸出結果。

印出輸出結果

最後，我們將輸入文字、正確輸出和模型輸出結果進行印出，方便比較和分析。

print(input_text)
print(f"\n正確輸出:\n>> {entry['output']}")
print(f"\n模型輸出:\n>> {response_text.strip()}")

這個過程使我們能夠直觀地觀察到模型的效能和輸出結果，從而進行進一步的最佳化和調整。

對話式人工智慧評估方法

對話式人工智慧（LLM）的評估是一個複雜的過程，需要考慮多個方面。與傳統的完成式微調不同，完成式微調可以透過計算正確的垃圾郵件/非垃圾郵件類別標籤的百分比來評估準確率，對話式人工智慧的評估需要更多元的方法。

評估方法

現實中，對話式人工智慧通常透過多種方法進行評估，包括：

短答案和多選題基準：測試模型的通用知識，如「Measuring Massive Multitask」等基準。
人類偏好比較：與其他LLM進行比較，例如LMSYS聊天機器人競技場。
自動化對話基準：使用另一個LLM（如GPT-4）進行評估，例如alpaca_eval。

對話效能

對話效能是指LLM能夠以人類般的方式進行交流的能力，包括提供相關且連貫的回應、保持一致性以及適應不同的主題和互動風格。這些能力對於建立自然、流暢的對話體驗至關重要。

自動化評估

由於人類評估可能耗時且費力，尤其是在處理大量回應時，可以採用類別似於自動化對話基準的方法，使用另一個LLM來評估模型的回應。這種方法可以高效地評估生成回應的品質，而無需大量的人類參與。

實作自動化評估

為了實作自動化評估，可以使用另一個LLM來評估模型的回應。首先，需要將生成的模型回應追加到測試集字典中，並將更新的資料儲存為「instruction-data-with-response.json」檔案，以便記錄和後續分析。

程式碼實作

以下程式碼列表示範瞭如何使用generate方法生成模型回應，並將其追加到測試集字典中：

from tqdm import tqdm

for i, entry in tqdm(enumerate(test_data), total=len(test_data)):
    input_text = format_input(entry)
    token_ids = generate(
        model=model,
        idx=text_to_token_ids(input_text, tokenizer).to(device),
        max_new_tokens=256,
        context_size=BASE_CONFIG["context_length"],
        eos_id=50256
    )
    generated_text = token_ids_to_text(token_ids, tokenizer)
    response_text = generated_text[len(input_text):].replace("### Response:", "")
    # 將回應追加到測試集字典中
    test_set[entry['id']] = response_text

透過這種方法，可以高效地評估模型的對話效能，並為模型的改進提供寶貴的見解。

使用 Ollama 進行 LLM 評估

在評估 LLM 的表現時，需要一個自動化的方法來評估大量的回應。為了實作這一點，我們可以使用 Ollama 這個工具，Ollama 是一個高效的 LLM 執行環境，可以在筆記型電腦上執行。

下載和安裝 Ollama

要使用 Ollama，需要先下載和安裝它。下面是安裝步驟：

macOS 和 Windows 使用者：下載 Ollama 應用程式，並按照提示安裝。
Linux 使用者：使用 Ollama 網站上的安裝命令進行安裝。

驗證 Ollama 的功能

在開始使用 Ollama 進行 LLM 評估之前，需要驗證它是否正常執行。可以透過下載 Llama 3 模型並使用 Ollama 來執行它。

使用 Ollama 進行 LLM 評估

有了 Ollama 之後，就可以使用它來評估 LLM 的表現。這涉及到使用 Ollama 來執行一個 instruction-fine-tuned 的 8-billion-parameter Llama 3 模型，該模型由玄貓開發。

實作評估程式碼

以下是使用 Ollama 進行 LLM 評估的程式碼範例：

import json
import torch

# 載入 Llama 3 模型
model = torch.load("llama3.pth")

# 定義評估函式
def evaluate_llm(instruction, input_text):
    # 使用 Ollama 來執行 Llama 3 模型
    output = model.generate(input_text, instruction)

    # 評估輸出結果
    score = evaluate_output(output)

    return score

# 定義評估輸出結果的函式
def evaluate_output(output):
    # 實作評估邏輯
    pass

# 載入測試資料
with open("test_data.json", "r") as file:
    test_data = json.load(file)

# 進行評估
for item in test_data:
    instruction = item["instruction"]
    input_text = item["input"]
    score = evaluate_llm(instruction, input_text)

    # 儲存評估結果
    item["score"] = score

# 儲存評估結果
with open("evaluated_test_data.json", "w") as file:
    json.dump(test_data, file)

優點和限制

使用 Ollama 進行 LLM 評估有以下優點：

高效：Ollama 可以在筆記型電腦上高效執行 LLM。
自動化：Ollama 可以自動化評估過程，節省時間和人力。

但是，也有一些限制：

需要下載和安裝 Ollama。
需要有一個 instruction-fine-tuned 的 LLM 模型。

玄貓風格技術文章結論：進階模型微調與評估

深入剖析模型微調的流程與技術細節後，我們可以發現，從資料準備、模型選擇到效能評估，每個環節都至關重要。多維度的效能指標分析顯示，微調大語言模型（LLM）的關鍵在於平衡模型大小、資料集規模以及運算資源的限制。技術堆疊的各層級協同運作中體現了PyTorch和Transformers函式庫的強大功能，有效簡化了微調流程，提升了開發效率。

透過實務落地分析，模型微調並非一蹴可幾，需要不斷迭代最佳化。訓練過程中，模型損失函式的變化、驗證集的表現以及定性評估結果，都是評估模型學習效果的重要依據。此外，硬體資源的限制也是一大挑戰，需要謹慎選擇合適的模型和訓練策略。從概念到實踐的關鍵考量在於如何有效利用有限的資源，最大化模型的效能提升。潛在技術風險的識別與管理建議包括：密切關注模型的過擬合現象、調整超引數以最佳化模型表現，以及採用適當的評估指標來衡量模型的泛化能力。

展望未來，隨著技術的演進，預期LLM的微調技術將更加自動化和普及化。跨領域技術融合的趨勢判斷顯示，結合強化學習、知識蒸餾等技術，將進一步提升LLM的效能和應用範圍。新興應用場景的形成預測包括：更精準的機器翻譯、更自然的對話式人工智慧，以及更強大的程式碼生成工具。

玄貓認為，儘管LLM微調仍面臨諸多挑戰，但其巨大的潛力不容忽視。技術團隊應著重於解決資料品質、運算效率以及評估方法等核心挑戰，才能充分釋放LLM的潛力，創造更大的商業價值。接下來的2-3年，將是LLM微調技術從實驗室走向產業應用的關鍵視窗期。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。