細分模型規模衡量與變換器架構解析

細分模型的規模評估涉及引數數量、訓練資料規模以及向量空間維度等指標。引數量直接反映模型的複雜度，訓練資料量則影響模型的泛化能力，而向量空間維度則決定了模型對語義關係的捕捉能力。變壓器架構是目前主流的細分模型架構，其核心概念包括標記化、向量空間和注意力機制。標記化將輸入文字分解成可處理的單元，向量空間則將這些單元對映到高維向量，以便捕捉語義關係。注意力機制則讓模型能夠根據上下文理解詞彙的含義，進而提升模型的理解能力。除了變壓器架構，其他架構如卷積神經網路、迴圈神經網路和圖神經網路也應用於特定領域的細分模型建構。

如何衡量細分模型的大小？

衡量細分模型大小的一種方法是計算模型中的引數（權重）數量。例如，BloomberGPT 宣稱具有 50 億個引數，而 GPT-4 的估計引數數量則達到 700 億。另一個衡量標準是用於訓練模型的檔案數量。雖然具體數字是商業機密，但許多細分模型都使用 CommonCrawl 作為其資料來源，CommonCrawl 宣稱已經收集了超過 250 億個網頁。最後，細分模型管理的向量空間維度也是衡量其規模的一種方法。向量空間的維度可以達到幾千或幾萬。

什麼是變壓器架構？

變壓器架構是細分模型中常用的架構。我們將著重於文字輸入，雖然相同的技術也適用於影像和其他媒體輸入。變壓器架構首先將輸入字串進行標記化，然後使用根據 Word2Vec 等技術的演算法將其轉換為實數向量集合。每個向量代表一個標記，使用實際單詞計算向量可能很困難，因此輸入首先被標記化。標記化將輸入文字分解為稱為標記的單元，可以是整個單詞、單詞的一部分或甚至標點符號。

向量空間如何工作？

向量空間是一種數學結構，允許我們以向量的形式表示單詞或其他標記。這些向量可以具有數千維，允許模型捕捉單詞之間複雜的語義關係。例如，單詞「king」、「queen」、「man」和「woman」將被對映到向量空間中的向量，使得「man」與「king」接近，「king」與「queen」接近，依此類別推。這使得模型能夠檢測單詞之間的語義關係。

4.2.2 注意力機制

注意力機制是變換器架構中的關鍵機制。它們是在 2017 年的論文《注意力就是你所需要的一切》中一起引入的。注意力評分是根據輸入字串的向量計算的。傳統的語言處理方法將每個詞視為獨立的單元，不考慮其上下文。

注意力機制使得能夠根據上下文處理詞彙。例如，「書」這個詞可能指的是一本文、一個會計用的帳本或者是一包綁在一起的物品，如「郵票書」。如果沒有上下文，人工智慧系統就無法準確地解釋這個詞的使用。由於注意力評分結合了輸入字串中各個令牌的向量，因此它能夠捕捉到上下文。注意力機制可以應用為自注意力或多頭注意力。自注意力允許一個令牌關注輸入序列中的其他令牌，而多頭注意力則使用多個注意力機制平行工作。每個「頭」可以關注輸入的不同方面，使得模型能夠同時捕捉到多種型別的關係。

4.2.3 變換器架構中的其他元件

向量和注意力機制是變換器架構中的關鍵概念。變換器架構是一種神經網路（在第 3 章《人工智慧背景》中描述），其中輸入層將令牌轉換為向量，隱藏層使用注意力機制捕捉不同的資訊，輸出層生成最終輸出。這個簡短的描述並不能對變換器技術做到充分的介紹，但它足以作為本文的概覽。

4.3 基礎模型架構的替代方案

雖然變換器架構是最受歡迎的，但其他架構也被用於構建基礎模型，特別是在需要不同模型特性的領域：

卷積神經網路（CNNs）：雖然在電腦視覺任務中更為常見，但 CNNs 也可以用作基礎模型，特別是在涉及空間資料的任務中。
迴圈神經網路（RNNs）及其變體（長短期記憶，LSTM，和門控迴圈單元，GRU）：這些架構特別適合於序列資料，曾被廣泛用於變換器之前。它們仍然在模型大小和計算效率至關重要的特定場景中被使用。
混合模型：一些基礎模型使用了架構的組合，例如將 CNN 特徵整合到變換器模型中，以完成需要空間和序列處理的任務。
圖神經網路（GNNs）：對於涉及圖結構資料的任務，例如社交網路或分子結構，GNNs 是一種強大的基礎模型架構。
自動編碼器和變分自動編碼器：它們被用於無監督學習任務，包括降維和特徵學習，可以在需要生成或重構能力的領域中發揮基礎作用。

每種架構都有其獨特的優勢，並根據具體需求和資料性質進行選擇。雖然對這些替代方案進行詳細討論超出了本文的範圍，但在設計根據人工智慧的系統時，瞭解其存在是非常重要的。

自定義基礎模型（FMs）

基礎模型的訓練大致分為兩個部分：預訓練和自定義訓練。預訓練是指訓練通用基礎模型，而自定義訓練則是將基礎模型專門化為特定任務。基礎模型通常由玄貓等大型科技公司或 AI 實驗室使用大量未標記和一般資料（如巨大的文字資料函式庫）進行訓練。這使得基礎模型在不同領域中具有廣泛的適用性，因為它接觸到了許多一般資訊和模式。然而，為了提高基礎模型在特定任務中的準確性和有用性，可能需要進一步的領域特定自定義。

自定義技術

基礎模型的自定義包括多種技術，如提示工程（Prompt Engineering）、檢索增強生成（Retrieval Augmented Generation, RAG）、微調（Fine-tuning）和蒸餾（Distilling）。此外，還包括使用防護欄（Guardrails）來監控和控制輸入和輸出，以及更新基礎模型。

提示工程

提示工程是指設計和最佳化基礎模型的輸入提示，以生成特定型別的輸出。它涉及選擇合適的關鍵字、提供示例和上下文，並塑造輸入以鼓勵基礎模型產生期望的回應。提示工程不改變基礎模型轉換器架構中的底層權重，但提供了影響模型輸出的上下文。它分析了提示中所有詞彙之間的關係以及模型層中儲存的相關知識。

提示工程包括三種變體：使用者提示工程、靜態提示工程和動態提示工程。

使用者提示工程：指使用者使用的策略和技術，以便在基礎模型中建立更相關和有效的提示。
靜態提示工程：涉及編寫靜態系統提示，通常由玄貓與使用者反饋或高階使用者緊密合作編寫。系統提示是每次請求都傳遞給基礎模型的固定字串，通常設定寬泛的上下文和典型的語氣。
動態提示工程：指的是根據使用者互動或會話的上下文，在實時調整和最佳化提示。這種方法根據每個特定例項定製輸入，以增強輸出的相關性和準確性。

動態提示工程的一些常見技術包括：

上下文調整：修改提示以更好地反映當前使用者互動或會話的具體上下文。
遞迴精煉：以變化的提示多次查詢基礎模型，並使用回應來精煉輸入，直到產生最準確和連貫的輸出。
逐步提示：逐漸提供更多上下文或資訊，以引導基礎模型產生更準確和相關的回應。

人工智慧語言模型的動態提示工程

人工智慧語言模型（LLM）是一種可以根據輸入提示生成文字的模型。然而，要讓 LLM 生成高品質的文字，需要一個良好的提示工程。動態提示工程是一種可以根據 LLM 的效能動態調整提示的方法。

動態提示工程的挑戰

動態提示工程是一個複雜的任務，需要大量的資源和反饋迴路來確保 LLM 生成的文字是正確和有用的。玄貓是一個例子，展示瞭如何使用動態提示工程來生成高品質的文字。

提示模式

有幾種提示模式可以用於 LLM，包括：

自我一致性：透過多次詢問 LLM 相同的提示，並選擇最一致的答案作為最終答案。
思考鏈：允許 LLM 進行複雜的推理，透過中間的推理步驟來解決問題。
思考樹：根據思考鏈，但使用樹狀結構來進行動態推理。

提示工程師的工作

提示工程師是一種新的專業，負責建立和最佳化 LLM 使用的提示。提示工程師需要有強大的自然語言處理（NLP）和人工智慧（AI）知識，同時需要有良好的溝通和合作能力。

提示工程師的職責

提示工程師的職責包括：

開發和最佳化提示：建立清晰、簡潔和資訊豐富的提示，以引導 LLM 生成所需的輸出。
最佳化提示效能：實驗不同的陳述式和技術，以確保提示生成最準確、最吸引人和最相關的輸出。
合作：與內容、產品和資料科學團隊合作，以瞭解使用者需求並將其轉換為技術規格。

從技術架構的視角來看，評估細分模型的大小和選擇合適的架構對於構建高效的 AI 系統至關重要。本文深入探討了衡量模型大小的指標，如引數數量、訓練資料規模和向量空間維度，並解析了變壓器架構的核心元件：標記化、向量空間、注意力機制等。同時，文章也提出了變壓器架構的替代方案，如 CNN、RNN、GNN 等，以及如何透過提示工程、微調等技術客製化基礎模型。技術限制方面，提示工程的複雜性和動態調整的挑戰仍待克服，需要更精細的策略和更強大的反饋迴路。對於實務應用，建議根據具體任務需求選擇合適的模型大小和架構，並結合提示工程技術最佳化模型效能。玄貓認為，隨著模型架構的持續發展和客製化技術的精進，未來細分模型的應用場景將更加廣泛，並在各個領域釋放更大的潛力。預計未來幾年，混合模型架構和更自動化的客製化流程將成為趨勢，進一步降低使用門檻，推動 AI 技術的普及應用。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。