細分模型的規模評估涉及引數數量、訓練資料規模以及向量空間維度等指標。引數量直接反映模型的複雜度,訓練資料量則影響模型的泛化能力,而向量空間維度則決定了模型對語義關係的捕捉能力。變壓器架構是目前主流的細分模型架構,其核心概念包括標記化、向量空間和注意力機制。標記化將輸入文字分解成可處理的單元,向量空間則將這些單元對映到高維向量,以便捕捉語義關係。注意力機制則讓模型能夠根據上下文理解詞彙的含義,進而提升模型的理解能力。除了變壓器架構,其他架構如卷積神經網路、迴圈神經網路和圖神經網路也應用於特定領域的細分模型建構。
如何衡量細分模型的大小?
衡量細分模型大小的一種方法是計算模型中的引數(權重)數量。例如,BloomberGPT 宣稱具有 50 億個引數,而 GPT-4 的估計引數數量則達到 700 億。另一個衡量標準是用於訓練模型的檔案數量。雖然具體數字是商業機密,但許多細分模型都使用 CommonCrawl 作為其資料來源,CommonCrawl 宣稱已經收集了超過 250 億個網頁。最後,細分模型管理的向量空間維度也是衡量其規模的一種方法。向量空間的維度可以達到幾千或幾萬。
什麼是變壓器架構?
變壓器架構是細分模型中常用的架構。我們將著重於文字輸入,雖然相同的技術也適用於影像和其他媒體輸入。變壓器架構首先將輸入字串進行標記化,然後使用根據 Word2Vec 等技術的演算法將其轉換為實數向量集合。每個向量代表一個標記,使用實際單詞計算向量可能很困難,因此輸入首先被標記化。標記化將輸入文字分解為稱為標記的單元,可以是整個單詞、單詞的一部分或甚至標點符號。
向量空間如何工作?
向量空間是一種數學結構,允許我們以向量的形式表示單詞或其他標記。這些向量可以具有數千維,允許模型捕捉單詞之間複雜的語義關係。例如,單詞「king」、「queen」、「man」和「woman」將被對映到向量空間中的向量,使得「man」與「king」接近,「king」與「queen」接近,依此類別推。這使得模型能夠檢測單詞之間的語義關係。
4.2.2 注意力機制
注意力機制是變換器架構中的關鍵機制。它們是在 2017 年的論文《注意力就是你所需要的一切》中一起引入的。注意力評分是根據輸入字串的向量計算的。傳統的語言處理方法將每個詞視為獨立的單元,不考慮其上下文。
注意力機制使得能夠根據上下文處理詞彙。例如,「書」這個詞可能指的是一本文、一個會計用的帳本或者是一包綁在一起的物品,如「郵票書」。如果沒有上下文,人工智慧系統就無法準確地解釋這個詞的使用。由於注意力評分結合了輸入字串中各個令牌的向量,因此它能夠捕捉到上下文。注意力機制可以應用為自注意力或多頭注意力。自注意力允許一個令牌關注輸入序列中的其他令牌,而多頭注意力則使用多個注意力機制平行工作。每個「頭」可以關注輸入的不同方面,使得模型能夠同時捕捉到多種型別的關係。
4.2.3 變換器架構中的其他元件
向量和注意力機制是變換器架構中的關鍵概念。變換器架構是一種神經網路(在第 3 章《人工智慧背景》中描述),其中輸入層將令牌轉換為向量,隱藏層使用注意力機制捕捉不同的資訊,輸出層生成最終輸出。這個簡短的描述並不能對變換器技術做到充分的介紹,但它足以作為本文的概覽。
4.3 基礎模型架構的替代方案
雖然變換器架構是最受歡迎的,但其他架構也被用於構建基礎模型,特別是在需要不同模型特性的領域:
- 卷積神經網路(CNNs):雖然在電腦視覺任務中更為常見,但 CNNs 也可以用作基礎模型,特別是在涉及空間資料的任務中。
- 迴圈神經網路(RNNs)及其變體(長短期記憶,LSTM,和門控迴圈單元,GRU):這些架構特別適合於序列資料,曾被廣泛用於變換器之前。它們仍然在模型大小和計算效率至關重要的特定場景中被使用。
- 混合模型:一些基礎模型使用了架構的組合,例如將 CNN 特徵整合到變換器模型中,以完成需要空間和序列處理的任務。
- 圖神經網路(GNNs):對於涉及圖結構資料的任務,例如社交網路或分子結構,GNNs 是一種強大的基礎模型架構。
- 自動編碼器和變分自動編碼器:它們被用於無監督學習任務,包括降維和特徵學習,可以在需要生成或重構能力的領域中發揮基礎作用。
每種架構都有其獨特的優勢,並根據具體需求和資料性質進行選擇。雖然對這些替代方案進行詳細討論超出了本文的範圍,但在設計根據人工智慧的系統時,瞭解其存在是非常重要的。
自定義基礎模型(FMs)
基礎模型的訓練大致分為兩個部分:預訓練和自定義訓練。預訓練是指訓練通用基礎模型,而自定義訓練則是將基礎模型專門化為特定任務。基礎模型通常由玄貓等大型科技公司或 AI 實驗室使用大量未標記和一般資料(如巨大的文字資料函式庫)進行訓練。這使得基礎模型在不同領域中具有廣泛的適用性,因為它接觸到了許多一般資訊和模式。然而,為了提高基礎模型在特定任務中的準確性和有用性,可能需要進一步的領域特定自定義。
自定義技術
基礎模型的自定義包括多種技術,如提示工程(Prompt Engineering)、檢索增強生成(Retrieval Augmented Generation, RAG)、微調(Fine-tuning)和蒸餾(Distilling)。此外,還包括使用防護欄(Guardrails)來監控和控制輸入和輸出,以及更新基礎模型。
提示工程
提示工程是指設計和最佳化基礎模型的輸入提示,以生成特定型別的輸出。它涉及選擇合適的關鍵字、提供示例和上下文,並塑造輸入以鼓勵基礎模型產生期望的回應。提示工程不改變基礎模型轉換器架構中的底層權重,但提供了影響模型輸出的上下文。它分析了提示中所有詞彙之間的關係以及模型層中儲存的相關知識。
提示工程包括三種變體:使用者提示工程、靜態提示工程和動態提示工程。
- 使用者提示工程:指使用者使用的策略和技術,以便在基礎模型中建立更相關和有效的提示。
- 靜態提示工程:涉及編寫靜態系統提示,通常由玄貓與使用者反饋或高階使用者緊密合作編寫。系統提示是每次請求都傳遞給基礎模型的固定字串,通常設定寬泛的上下文和典型的語氣。
- 動態提示工程:指的是根據使用者互動或會話的上下文,在實時調整和最佳化提示。這種方法根據每個特定例項定製輸入,以增強輸出的相關性和準確性。
動態提示工程的一些常見技術包括:
- 上下文調整:修改提示以更好地反映當前使用者互動或會話的具體上下文。
- 遞迴精煉:以變化的提示多次查詢基礎模型,並使用回應來精煉輸入,直到產生最準確和連貫的輸出。
- 逐步提示:逐漸提供更多上下文或資訊,以引導基礎模型產生更準確和相關的回應。
人工智慧語言模型的動態提示工程
人工智慧語言模型(LLM)是一種可以根據輸入提示生成文字的模型。然而,要讓 LLM 生成高品質的文字,需要一個良好的提示工程。動態提示工程是一種可以根據 LLM 的效能動態調整提示的方法。
動態提示工程的挑戰
動態提示工程是一個複雜的任務,需要大量的資源和反饋迴路來確保 LLM 生成的文字是正確和有用的。玄貓是一個例子,展示瞭如何使用動態提示工程來生成高品質的文字。
提示模式
有幾種提示模式可以用於 LLM,包括:
- 自我一致性:透過多次詢問 LLM 相同的提示,並選擇最一致的答案作為最終答案。
- 思考鏈:允許 LLM 進行複雜的推理,透過中間的推理步驟來解決問題。
- 思考樹:根據思考鏈,但使用樹狀結構來進行動態推理。
提示工程師的工作
提示工程師是一種新的專業,負責建立和最佳化 LLM 使用的提示。提示工程師需要有強大的自然語言處理(NLP)和人工智慧(AI)知識,同時需要有良好的溝通和合作能力。
提示工程師的職責
提示工程師的職責包括:
- 開發和最佳化提示:建立清晰、簡潔和資訊豐富的提示,以引導 LLM 生成所需的輸出。
- 最佳化提示效能:實驗不同的陳述式和技術,以確保提示生成最準確、最吸引人和最相關的輸出。
- 合作:與內容、產品和資料科學團隊合作,以瞭解使用者需求並將其轉換為技術規格。
從技術架構的視角來看,評估細分模型的大小和選擇合適的架構對於構建高效的 AI 系統至關重要。本文深入探討了衡量模型大小的指標,如引數數量、訓練資料規模和向量空間維度,並解析了變壓器架構的核心元件:標記化、向量空間、注意力機制等。同時,文章也提出了變壓器架構的替代方案,如 CNN、RNN、GNN 等,以及如何透過提示工程、微調等技術客製化基礎模型。技術限制方面,提示工程的複雜性和動態調整的挑戰仍待克服,需要更精細的策略和更強大的反饋迴路。對於實務應用,建議根據具體任務需求選擇合適的模型大小和架構,並結合提示工程技術最佳化模型效能。玄貓認為,隨著模型架構的持續發展和客製化技術的精進,未來細分模型的應用場景將更加廣泛,並在各個領域釋放更大的潛力。預計未來幾年,混合模型架構和更自動化的客製化流程將成為趨勢,進一步降低使用門檻,推動 AI 技術的普及應用。