LLM微調效能與成本平衡之道

隨著大語言模型（LLM）的快速發展，如何在有限資源下最大化其效能成為關鍵挑戰。Transformer模型的出現革新了自然語言處理領域，其平行處理能力和自注意力機制使其在處理長序列任務中表現出色。從GPT到Gemini，模型規模和效能不斷提升，但微調成本也隨之增加。選擇合適的微調策略，例如全模型微調、部分引數微調或根據Adapter的方法，並結合高效的訓練技術，如混合精確度訓練和梯度累積，是平衡效能和成本的關鍵。此外，最佳化訓練資料的品質和數量也能有效降低計算成本，同時提升模型效能。

解鎖LLM潛力：微調效能與成本的平衡之道

大語言模型（LLM）作為人工智慧領域的一場革命，正在改變我們與資訊和科技互動的方式。作為技術研究者，我們將探討Transformer模型的架構和演進歷程，揭開大語言模型的神秘面紗。

大語言模型：理解語言的巨人

大語言模型是一種先進的人工智慧系統，專精於處理、理解和生成類別似人類的文字。這些系統通常以深度神經網路的形式實作，並在海量文字資料上進行訓練，使其能夠學習語言的複雜模式，從而執行各種任務，如機器翻譯、創意文字生成、問答和文字摘要等。

在Transformer出現之前，迴圈神經網路（RNN），尤其是長短期記憶（LSTM）和門控迴圈單元（GRU），是建模序列的主流方法。然而，RNN的序列特性使其計算密集且難以平行化。

Transformer：平行處理的革新者

Transformer是一種新型神經網路，能夠透過自注意力機制平行處理一系列token，使其在處理長序列任務中的長期依賴關係方面更具優勢。雖然原始Transformer中自注意力機制的成本與上下文長度的平方成正比，但其仍大幅加快了訓練速度。

Transformer架構：編碼器與解碼器的協奏

Transformer架構由編碼器和解碼器組成。編碼器將輸入文字轉換為一種表示形式，然後傳遞給解碼器。解碼器使用此表示形式自動遞迴地生成輸出文字。值得注意的是，Transformer編碼器的輸出大小與其輸入大小呈線性關係。

內容解密：

上圖展示了Transformer的基本流程。輸入序列經過編碼器處理後轉換為中間表示形式，接著解碼器利用此表示形式生成輸出序列。這種編碼器-解碼器結構是Transformer的核心，使其能夠有效地處理序列到序列的任務。

從GPT到Gemini：Transformer的演進

Transformer的出現標誌著自然語言處理領域的一個重要里程碑。從GPT-1到Gemini，Transformer模型不斷演進，功能日益強大。這些模型在各種任務中取得了令人矚目的成果，並推動了自然語言處理技術的快速發展。

Transformer模型的深度解析

讓我們逐步解析一個法陳述式子如何輸入到Transformer中，並最終輸出相應的英文翻譯。

輸入準備與詞嵌入

首先，將輸入序列轉換成Token，然後轉換成詞嵌入向量。詞嵌入向量是一個高維向量，用於表示句子中每個Token的含義。生成詞嵌入向量的步驟包括正規化、斷詞、嵌入和位置編碼。

多頭注意力機制

多頭注意力機制使模型能夠專注於與當前任務相關的輸入序列的特定部分，並比傳統的RNN更有效地捕捉序列中的長距離依賴關係。自注意力機制透過計算查詢向量與鍵向量的點積來衡量每個單詞對其他單詞的「注意力」程度。

內容解密：

多頭注意力機制提升了模型處理複雜語言模式和長距離依賴關係的能力，這對於需要深入理解語言結構和內容的任務至關重要。多頭注意力機制使用多組Q、K、V權重矩陣平行執行，每個「頭」都可能關注輸入關係的不同方面。每個「頭」的輸出會被拼接在一起，然後進行線性變換，為模型提供更豐富的輸入序列表示。

層正規化和殘差連線

Transformer的每一層都使用層正規化和殘差連線，以減少共變數偏移並改善梯度流，從而加快訓練過程中的收斂速度並提高整體效能。

前饋網路

前饋網路對資料進行逐位置變換，獨立處理序列中的每個位置，使模型的表示中可以加入額外的非線性和複雜性。前饋網路通常由兩個線性變換組成，中間有一個非線性啟用函式，如ReLU或GELU。

Transformer模型的編碼器與解碼器

編碼器的主要功能是將輸入序列處理成一個連續的表示形式，其中包含每個詞彙的上下文訊息。解碼器的任務是根據編碼器輸出的上下文生成輸出序列，使用遮罩自注意力和編碼器-解碼器交叉注意力機制。大多數近期的LLMs採用了僅解碼器的Transformer架構變體，直接從輸入生成輸出序列。

Transformer模型的訓練

訓練Transformer涉及資料準備、訓練和損失函式計算。首先，透過清理、分詞和分割資料來準備訓練資料集。然後，將輸入序列送入Transformer，生成預測的輸出序列。使用損失函式（如交叉熵損失）來衡量預測序列和目標序列之間的差異，並計算損失的梯度來更新Transformer的引數。

微調效能與成本的平衡

在實際應用中，微調大語言模型需要平衡效能與成本。微調可以提高模型在特定任務上的表現，但也會帶來計算成本和資源消耗。為了實作平衡，可以採用以下策略：

選擇適當的微調方法：根據任務需求選擇適當的微調方法，如全模型微調、部分引數微調或根據Adapter的方法。
最佳化訓練資料：最佳化訓練資料的品質和數量，以減少不必要的計算成本。
使用高效的訓練技術：使用高效的訓練技術，如混合精確度訓練、梯度累積等，以減少訓練時間和成本。
評估模型效能：定期評估模型在特定任務上的效能，以確定是否需要進一步微調。

透過這些策略，可以在微調效能與成本之間取得平衡，從而更好地發揮大語言模型的潛力。

解開 GPT 家族的進化密碼：從 GPT-1 到 GPT-4 的技術飛躍

在自然語言處理的技術浪潮中，大語言模型（LLM）扮演著舉足輕重的角色。從早期的 GPT-1 到如今功能強大的 GPT-4，這些模型的演進歷程展現了驚人的技術飛躍。本文將深入剖析 GPT 家族的發展脈絡，揭示每個版本的關鍵創新和技術突破。

GPT-1：開啟非監督式預訓練的先河

GPT-1 的核心突破在於採用了非監督式預訓練。不同於傳統的監督式學習，非監督式預訓練讓模型在海量未標記的文字資料中自行學習語言模式和結構。這不僅降低了資料收集的成本，也讓模型具備更強的泛化能力，能夠應對未曾訓練過的任務。

GPT-1 使用了 BooksCorpus 資料集進行訓練，這個資料集包含了超過 7,000 本未出版的書籍，提供了豐富的文字資源。此外，GPT-1 還引入了一種稱為「任務感知輸入轉換」的技術，將不同型別的任務（例如文字蘊含和問答）轉換成模型可以理解的輸入格式，無需額外設計特定任務的架構。

儘管 GPT-1 在多個基準測試中取得了優異的成績，但它仍存在一些侷限性，例如容易生成重複文字，以及在長文字生成方面缺乏連貫性。然而，GPT-1 的出現證明瞭非監督式預訓練的巨大潛力，為後續更強大模型的發展奠定了基礎。

GPT-2：規模化與零樣本學習的突破

GPT-2 的主要創新在於規模的擴大。相比 GPT-1，GPT-2 的引數數量和訓練資料集規模都增加了十倍。它使用了名為 WebText 的大型資料集進行訓練，該資料集包含了來自 Reddit 的 4500 萬個網頁。

引數規模的擴大顯著提升了 GPT-2 的文字生成能力，使其能夠生成更連貫、更逼真的文字。更重要的是，GPT-2 展現了在零樣本學習方面的出色能力，即在沒有經過特定任務訓練的情況下，也能理解和執行任務。例如，只需提供一個英文句子和「德語」的提示，GPT-2 就能理解這是一個翻譯任務，並生成相應的德語翻譯。

內容解密：

上述 Plantuml 圖表展示了 GPT-2 進行零樣本翻譯的過程。英文句子作為輸入，GPT-2 根據「德語」的提示，理解任務並輸出德語翻譯。

GPT-3/3.5/4：規模化、靈活性與泛化能力的提升

GPT-3 的出現標誌著大語言模型發展的又一里程碑。它擁有驚人的 1750 億個引數，比 GPT-2 最大模型的引數數量增加了百倍以上。如此龐大的規模讓 GPT-3 能夠儲存和呼叫更豐富的訊息，理解更細微的指令，並生成更長、更連貫的文字。

與 GPT-2 需要微調才能執行特定任務不同，GPT-3 只需少量示例，甚至無需示例，就能理解和執行任務。這展現了 GPT-3 更強的理解和適應能力。此外，GPT-3 在更廣泛的 NLP 任務上表現出更佳的泛化能力，無需額外訓練就能在翻譯、問答等任務中取得優異成績。

GPT-3 的發布方式也與 GPT-2 不同。OpenAI 選擇將 GPT-3 作為商業 API 提供，反映了其巨大的實用價值。隨後推出的 InstructGPT，透過監督式微調和人類反饋強化學習，進一步提升了模型遵循指令的能力，即使引數規模較小，也比 GPT-3 表現更佳。

總結：從 GPT-1 到 GPT-4，我們見證了大語言模型的快速發展。規模的擴大、非監督式預訓練、零樣本學習以及指令微調等技術創新，不斷提升模型的效能和泛化能力，使其在自然語言處理領域發揮越來越重要的作用。未來，隨著技術的進一步發展，大語言模型將為我們帶來更多驚喜。

大語言模型的演進與比較：從 GPT-3 到 PaLM 2

在人工智慧領域，大語言模型（LLM）的發展日新月異。從早期的 GPT-3 到現在的 PaLM 2，這些模型在理解和生成程式碼、進行對話以及處理多模態輸入方面都有顯著的進步。本文將探討這些模型的演進過程，比較它們的核心特性，並分析其優缺點。

GPT 家族的崛起：GPT-3 與 GPT-4

GPT-3.5 turbo 相較於 GPT-3 有了顯著的提升，它更擅長理解和生成程式碼，並針對對話進行了最佳化。其上下文視窗可達 16,385 個 token，輸出則可達 4,096 個 token。

GPT-4 作為 GPT-3.5 的延伸，是一個大型多模態模型，能夠處理影像和文字輸入，並產生文字輸出。它擁有更廣泛的通用知識和更強的推理能力，上下文視窗高達 128,000 個 token，最大輸出為 4,096 個 token。GPT-4 的多功能性令人印象深刻，它可以在數學、程式設計、視覺、醫學、法律和心理學等不同領域解決複雜任務，無需專門的指示。它的效能通常與人類相當，甚至超越人類，並且明顯優於 GPT-3.5 等早期模型。

Google 的對話專家：LaMDA

Google 的 LaMDA（Language Model for Dialogue Applications）是大語言模型領域的另一個重要貢獻，主要用於進行開放式對話。與在受限和預定義域中運作的傳統聊天機器人不同，LaMDA 能夠處理各種主題，提供更自然、流暢的對話體驗。LaMDA 接受了以對話為中心的資料訓練，以鼓勵持續的對話流程，而不僅僅是孤立的回應，確保使用者可以進行更廣泛、更深入的對話。

GPT 模型（尤其是後期的 GPT-3）致力於同時處理多項任務，從文字生成到程式碼編寫，而 LaMDA 的主要重點是保持和增強對話的深度和廣度。GPT 模型擅長產生連貫的長篇內容，並以最少的提示執行各種任務，而 LaMDA 則強調對話的流暢性和進展，力求模仿人類對話的不可預測性和豐富性。

深度思維的探索：Gopher 與 Chinchilla

Gopher 是 DeepMind 於 2021 年開發的根據解碼器 transformer 架構的 2800 億引數語言模型。它可以生成文字、翻譯語言、編寫不同型別的創意內容，並以資訊豐富的方式回答問題。與 GPT-3 類別似，Gopher 專注於改進資料集品質和最佳化技術：

資料集： 研究人員企劃了一個名為 MassiveText 的高品質文字資料集，其中包含超過 10 TB 的資料和來自網頁、書籍、新聞文章和程式碼（GitHub）的 24.5 億份檔案。他們僅使用了資料集的 12%（3000 億個 token）進行訓練。重要的是，他們透過過濾資料（例如刪除重複文字和去重相似檔案）來提高資料品質，這顯著提高了模型在下游任務中的效能。
最佳化： 研究人員使用了 1500 步的 warmup 學習率，然後使用餘弦排程對其進行衰減。他們還有一個有趣的規則：隨著模型大小的增加，他們會降低學習率並增加每批中的 token 數量。此外，他們發現根據全域梯度範數將梯度裁剪到最大值 1 有助於穩定訓練。

Gopher 在數學、常識、邏輯推理、常識、科學理解、倫理和閱讀理解等各種任務上進行了評估。在 81% 的任務中，Gopher 的效能都優於先前最先進的模型。具體來說，Gopher 在知識密集型任務上表現出色，但在抽象代數等推理繁重的任務上表現不佳。

Chinchilla 論文重新審視了計算最佳縮放規律，並使用三種不同的方法發現，隨著計算量的增加，引數和資料的近似相等縮放是最佳的。因此，計算量增加 100 倍應該會使資料大小和模型大小都增加 10 倍。為了驗證更新後的縮放規律，DeepMind 使用與先前訓練的 Gopher 模型相同的計算預算訓練了一個 700 億引數的模型（稱為 Chinchilla）。Chinchilla 在大量下游評估任務中均勻與顯著地優於 Gopher (280B)、GPT-3 (175B) 和 Megatron-Turing NLG (530B)。由於 Chinchilla 比 Gopher 小 4 倍，因此它的記憶體佔用空間和推理成本也更小。

Google 的高效能模型：PaLM 與 PaLM 2

PaLM（Pathways language model）是 Google AI 開發的根據 transformer 的 5400 億引數大語言模型。它在大量的文字和程式碼資料集上進行了訓練，能夠執行各種任務，包括常識推理、算術推理、笑話解釋、程式碼生成和翻譯。在釋出時，PaLM 還能夠在許多語言基準測試（例如 GLUE 和 SuperGLUE）上達到最先進的效能。PaLM 的一個主要特性是它能夠高效地擴充，這要歸功於 Pathways 系統，該系統由 Google 開發，用於在兩個 TPU v4 Pod 上分配大語言模型的訓練。

PaLM 2 是 PaLM 的繼任者，於 2023 年 5 月釋出。由於一些架構和訓練方面的增強，PaLM 2 比 PaLM 功能更強大，而引數總數更少。它擅長高階推理任務，包括程式碼生成。

Gemini：Google的多模態語言模型家族

Gemini 是 Google 的一個前沿的多模態模型家族，能處理交錯的文字、影像、音訊和影片序列作為輸入，這在當時可是相當突破性的。Gemini 建立在 transformer 解碼器之上，其架構改進使其具有更大的規模，並在 Google 的張量處理單元 (TPU) 上進行了最佳化的推理。

目前版本 Gemini 1.5 經過訓練，可支援不同大小的上下文，在 Vertex AI 上的 Gemini 1.5 Pro 版本中最多可支援 200 萬個 token，並採用了多查詢注意力等機制來提高效率。為了最佳化效率和模型能力，Gemini 模型還採用了混合專家架構（Mixture of Experts architecture）。多模態特性允許模型處理輸入的文字、影像和影片，預計未來將支援更多輸入和輸出模態。

Gemini 模型的訓練是在 Google 的 TPUv5e 和 TPUv4 處理器上進行的，具體取決於大小和組態。預訓練資料包括網頁檔案、書籍、程式碼以及影像、音訊和影片資料。較大的模型使用與 Chinchilla 論文相同的方法，針對計算最佳化的 token 數量進行訓練，而較小的模型則針對遠超計算最佳化的 token 數量進行訓練，以提高給定推理預算下的效能。

Gemini 模型家族針對不同規模進行了最佳化：Gemini Ultra、Gemini Pro、Gemini Nano 和 Flash。Gemini Ultra 用於高度複雜的任務，在 32 個基準測試任務中的 30 個中取得了最先進的成果。Gemini Pro 用於實作大規模佈署，而 Gemini Nano 則專為裝置上應用而設計。Gemini Nano 模型利用蒸餾等先進技術，在摘要和閱讀理解等任務上為小型語言模型產生最先進的效能。由於 Gemini 模型本身就是多模態，因此可以看出跨多個模態進行訓練確實可以使模型在每個領域都具備強大的能力。

Gemini 1.5 Pro：人工智慧技術的飛躍進展

2024年初，Google推出了Gemini家族的最新模型——Gemini 1.5 Pro。這一高效能的多模態混合專家模型，不僅在技術上取得了重大突破，還將上下文視窗的大小擴充套件到了數百萬個token，能夠處理包括多個長檔案、數小時的影片和音訊在內的大量資訊。Gemini 1.5 Pro在多個領域展現了卓越的能力：

程式碼理解能力： 能夠處理大量的程式碼函式庫，並回答與程式碼相關的特定問題。
語言學習能力： 僅憑藉輸入中提供的參考材料，就能學習訓練時未曾接觸過的新語言。
多模態推理能力： 結合影像和文字資訊，能夠根據簡單的草圖找到小說《悲慘世界》中的著名場景。
影片理解能力： 能夠分析整部電影，回答詳細問題，並準確指出特定的時間戳。

Gemini 1.5 Pro在資訊檢索方面表現出色。在長達53萬個token的檔案中，它的召回率達到100%；在長達100萬個token的檔案中，召回率超過99.7%。即使在長達1000萬個token的檔案中查詢資訊，它的準確性仍能保持在99.2%。

此外，Gemini 1.5 Pro在大語言模型遵循複雜指令方面取得了重大進步。在包含406個多步驟提示的嚴格測試中，它的效能明顯優於之前的Gemini模型。該模型準確遵循了近90%的指令，並完成了66%的複雜任務。

輕量級但功能強大的Gemini Flash和Gemma

Gemini Flash是Gemini模型家族的新成員，也是API中服務速度最快的模型。它針對大規模、高頻率的任務進行了最佳化，具有更低的服務成本和突破性的100萬個token的長上下文視窗。儘管比1.5 Pro更輕量，但它能夠跨大量資訊進行多模態推理，並在規模上提供令人印象深刻的品質。

最近推出的Gemma是一個輕量級的最先進的開放模型家族，它根據與Gemini模型相同的研發和技術。Gemma的第一個模型擁有256,000個單詞的大詞彙量，並在6萬億個token的龐大資料集上進行了訓練，使其成為公開可用的大語言模型集合中的寶貴補充。尤其是其20億引數版本，能夠在單個GPU上高效執行。

由Google AI開發的Gemma 2代表了開放大語言模型領域的重大進步。該模型以效率為核心設計，擁有270億個引數，在標準基準測試中的效能可與Llama 3 70B等更大的模型相媲美。這使得Gemma 2成為廣大人工智慧開發者的強大且易用的工具。它與各種調整工具鏈的相容性，從根據雲端的解決方案到流行的社群工具，進一步增強了它的多功能性。憑藉強大的效能、高效的架構和易用性，Gemma 2在推動創新和民主化人工智慧能力方面發揮著至關重要的作用。

開放大語言模型的快速發展

開放大語言模型的格局正在迅速發展，越來越多的模型的程式碼和預訓練權重公開可用。以下是一些值得關注的例子：

LLaMA 2： 由Meta AI發布，是一個預訓練和微調的大語言模型家族，引數範圍從70億到700億。相比前代，它在預訓練資料集、上下文長度和注意力機制等方面都有顯著改進。微調版本LLaMA 2-Chat針對對話進行了最佳化，與同等規模的閉源模型相比具有競爭力。
LLaMA 3.2： Meta AI發布的下一代開放大語言模型，包括多語言純文字模型（10億、30億引數）和視覺大語言模型（110億、900億引數）。其中，10億和30億引數的量化版本尺寸縮小了56%，速度提高了2-3倍，非常適合裝置上和邊緣佈署。LLaMA 3.2利用分組查詢注意力和128,000個token的詞彙量來提高效能和效率。

大語言模型的微調與強化學習

大語言模型通常經歷多個訓練階段。預訓練是基礎階段，模型在大型、多樣且未標記的文字資料集上進行訓練，任務是根據上下文預測下一個token。預訓練完成後，生成的模型通常具備一定的語言理解和生成能力，可以透過零樣本或少樣本提示進行測試。

預訓練後，可以透過微調進一步專門化模型，通常稱為指令微調或監督式微調（SFT）。SFT涉及在特定任務的演示資料集上訓練模型，同時在一組特定領域的任務中衡量其效能。微調可以改善模型的行為，例如指令遵循、對話能力和安全性。

監督式微調

SFT是透過在特定領域的高品質標記資料上進一步訓練模型，以提高其在特定任務或任務集上的效能。資料集通常比預訓練資料集小得多，並且是人工整理的。在此設定中，每個資料點包含一個輸入（提示）和一個演示（目標回應）。SFT不僅可以提高特定任務的效能，還可以改善模型的行為，使其更安全、更少有害、更具對話性，並更好地遵循指令。

從人工回饋中強化學習

在SFT之後，通常會進行第二階段的微調，稱為從人工回饋中強化學習（RLHF）。這是一種強大的微調技術，使模型能夠更好地與人類偏好的回應保持一致。與SFT不同，RLHF可以利用負面輸出，對生成不良回應的模型進行懲罰，從而降低生成無用或不安全回應的可能性。

為了利用RLHF，需要訓練一個獎勵模型（RM），通常使用預訓練的Transformer模型初始化，並根據人工偏好資料進行調整。人工偏好資料可以是單方面的，也可以由提示和一對回應以及偏好標籤組成，指示哪個回應是首選的。例如，給定同一篇文章的兩個摘要A和B，人工評分者會根據詳細選擇一個首選摘要。

@startuml
skinparam backgroundColor #FEFEFE
skinparam componentStyle rectangle

title LLM微調效能與成本平衡之道

package "機器學習流程" {
    package "資料處理" {
        component [資料收集] as collect
        component [資料清洗] as clean
        component [特徵工程] as feature
    }

    package "模型訓練" {
        component [模型選擇] as select
        component [超參數調優] as tune
        component [交叉驗證] as cv
    }

    package "評估部署" {
        component [模型評估] as eval
        component [模型部署] as deploy
        component [監控維護] as monitor
    }
}

collect --> clean : 原始資料
clean --> feature : 乾淨資料
feature --> select : 特徵向量
select --> tune : 基礎模型
tune --> cv : 最佳參數
cv --> eval : 訓練模型
eval --> deploy : 驗證模型
deploy --> monitor : 生產模型

note right of feature
  特徵工程包含：
  - 特徵選擇
  - 特徵轉換
  - 降維處理
end note

note right of eval
  評估指標：
  - 準確率/召回率
  - F1 Score
  - AUC-ROC
end note

@enduml

此圖表說明：

此流程圖展示了大語言模型的訓練過程，從預訓練開始，經過監督式微調和強化學習與人工回饋，最終得到一個效能更佳、更符合人類偏好的模型。

玄貓 BlackCat

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。