深度神經網路GELU啟用函式與捷徑連線應用

深度神經網路的設計需要仔細考量啟用函式和網路結構。本文以 GELU 啟用函式為例，說明其如何在深度神經網路中發揮作用，並探討其與線性層的結合使用。此外，文章也介紹了捷徑連線的應用，以及如何在 GPT 模型中使用前向傳播網路和 Transformer 層等技術。程式碼範例展示瞭如何建構一個簡單的前向神經網路，並使用 GELU 啟用函式。同時，也說明瞭如何建構一個包含兩個線性層的神經網路，並分析其輸入和輸出的形狀變化。最後，文章還討論了深度神經網路的最佳化技術，例如梯度裁剪、梯度規範化和殘差連線，以提升模型的訓練效率和準確度。

實作具有GELU啟用函式的前向神經網路

在本文中，我們將使用GELU啟用函式來實作一個小型神經網路模組，稱為FeedForward，它將被用於後面的LLM轉換器塊中。

import torch
import torch.nn as nn

class FeedForward(nn.Module):
    def __init__(self, cfg):
        super().__init__()
        self.layers = nn.Sequential(
            nn.Linear(cfg["emb_dim"], 4 * cfg["emb_dim"]),
            GELU(),
            nn.Linear(4 * cfg["emb_dim"], cfg["emb_dim"]),
        )

    def forward(self, x):
        return self.layers(x)

如上所示，FeedForward模組是一個小型神經網路，由兩個線性層和一個GELU啟用函式組成。在124百萬引數的GPT模型中，它接收具有768個嵌入大小的輸入批次，透過GPT_CONFIG_124M字典，其中GPT_CONFIG_124M["emb_dim"] = 768。

以下是當我們將一些輸入傳遞給這個小型前向神經網路時，嵌入大小如何被操縱的示意圖：

內容解密：

FeedForward類別定義了一個具有兩個線性層和一個GELU啟用函式的小型神經網路。
__init__方法初始化了神經網路的層結構，包括兩個線性層和一個GELU啟用函式。
forward方法定義了神經網路的前向傳播過程，將輸入x傳遞給層結構並傳回輸出。

圖表翻譯：

  flowchart TD
    A[輸入] --> B[線性層1]
    B --> C[GELU啟用函式]
    C --> D[線性層2]
    D --> E[輸出]

如上所示，輸入首先被傳遞給第一個線性層，然後被傳遞給GELU啟用函式，最後被傳遞給第二個線性層並傳回輸出。

深度神經網路的設計與實作

在深度學習中，神經網路的設計與實作是一個非常重要的步驟。下面，我們將探討一個簡單的神經網路結構，並分析其輸入和輸出的形狀。

神經網路結構

首先，我們來看一下神經網路的結構。這個神經網路由兩個線性層（Linear Layer）組成，每個線性層都有一個特定的功能。

第一個線性層

第一個線性層的作用是增加嵌入維度（embedding dimension）。嵌入維度是指每個token（詞彙或字元）在向量空間中的維度。這個線性層的輸入形狀為（2, 3, 3072），其中2代表批次大小（batch size），3代表token數量，3072代表嵌入維度。

經過第一個線性層後，輸出形狀變為（2, 3, 768）。這意味著嵌入維度被增加到了768。

第二個線性層

第二個線性層的作用是減少嵌入維度。這個線性層的輸入形狀為（2, 3, 768），與第一個線性層的輸出形狀相同。

經過第二個線性層後，輸出形狀變為（2, 3, 768）。這意味著嵌入維度被減少到了768。

神經網路的連線

下面是神經網路的連線圖：

  graph LR
    A[輸入] --> B[第一個線性層]
    B --> C[第二個線性層]
    C --> D[輸出]

圖表翻譯：

這個圖表展示了神經網路的連線結構。輸入資料首先經過第一個線性層，然後經過第二個線性層，最終產生輸出。

程式碼實作

以下是神經網路的程式碼實作：

import torch
import torch.nn as nn

class NeuralNetwork(nn.Module):
    def __init__(self):
        super(NeuralNetwork, self).__init__()
        self.linear1 = nn.Linear(3072, 768)
        self.linear2 = nn.Linear(768, 768)

    def forward(self, x):
        x = self.linear1(x)
        x = self.linear2(x)
        return x

# 初始化神經網路
net = NeuralNetwork()

# 輸入資料
input_data = torch.randn(2, 3, 3072)

# 輸出資料
output_data = net(input_data)
print(output_data.shape)

內容解密：

這個程式碼定義了一個簡單的神經網路，包含兩個線性層。第一個線性層將輸入資料的嵌入維度增加到768，第二個線性層將嵌入維度減少到768。輸入資料的形狀為（2, 3, 3072），輸出資料的形狀為（2, 3, 768）。

這個神經網路可以用於各種自然語言處理任務，例如文字分類別、語言模型等。

實作GPT模型以生成文字

根據圖4.9的例子，讓我們初始化一個新的前向神經網路模組（FeedForward），其令牌嵌入大小為768，並輸入一個批次輸入，其中包含兩個樣本，每個樣本有三個令牌：

import torch

class FeedForward:
    def __init__(self, config):
        self.linear1 = torch.nn.Linear(config['hidden_size'], config['hidden_size'] * 4)
        self.linear2 = torch.nn.Linear(config['hidden_size'] * 4, config['hidden_size'])
        self.gelu = torch.nn.GELU()

    def forward(self, x):
        x = self.linear1(x)
        x = self.gelu(x)
        x = self.linear2(x)
        return x

GPT_CONFIG_124M = {'hidden_size': 768}
ffn = FeedForward(GPT_CONFIG_124M)

x = torch.rand(2, 3, 768)
out = ffn(x)

print(out.shape)

如我們所見，輸出張量的形狀與輸入張量的形狀相同：

torch.Size([2, 3, 768])

前向神經網路模組在增強模型學習和泛化資料方面發揮著至關重要的作用。雖然此模組的輸入和輸出維度相同，但它透過第一個線性層將嵌入維度內部擴充套件到更高維度的空間，如圖4.10所示。這種擴充套件後面接著啟用函式，使得模型能夠探索更豐富的表示空間。

此外，輸入和輸出維度的一致性簡化了架構，無需在之間調整維度，因此使得模型更具可擴充套件性。

內容解密：

在上述程式碼中，我們定義了一個FeedForward類別，該類別包含兩個線性層和一個GELU啟用函式。forward方法定義了模組的前向傳播過程：首先，輸入張量透過第一個線性層進行變換，然後透過GELU啟用函式，最後透過第二個線性層進行變換，以得到輸出張量。

圖表翻譯：

  graph LR
    A[輸入] -->|批次維度2|> B[前向神經網路模組]
    B -->|線性層1|> C[高維空間]
    C -->|GELU啟用函式|> D[線性層2]
    D -->|輸出|> E[輸出張量]

在這個圖表中，我們展示了前向神經網路模組的架構：輸入張量首先透過第一個線性層進行變換，然後透過GELU啟用函式，最後透過第二個線性層進行變換，以得到輸出張量。這種設計允許模型探索更豐富的表示空間，並簡化了架構，使得模型更具可擴充套件性。

深度神經網路中的捷徑連線

在深度神經網路中，捷徑連線（shortcut connections）是一種重要的技術，用於改善網路的訓練效能。這種連線方式允許梯度在網路中流動的同時，建立了一條較短的路徑，使得梯度可以更容易地流向較早的層次。

捷徑連線的概念

捷徑連線最初是在電腦視覺領域中提出的，特別是在殘差網路（residual networks）中，用於緩解梯度消失問題。梯度消失問題是指在反向傳播過程中，梯度會逐漸變小，使得早期層次的訓練變得困難。

圖 4.12 顯示了一個捷徑連線的例子。在這個例子中，捷徑連線建立了一條較短的路徑，使得梯度可以更容易地流向較早的層次。這種連線方式可以幫助保留梯度的流動，從而改善網路的訓練效能。

實作捷徑連線

要實作捷徑連線，我們需要在網路中新增一條額外的連線，將輸入直接連線到輸出的某一層。這樣可以建立一個較短的路徑，使得梯度可以更容易地流向較早的層次。

以下是實作捷徑連線的一個例子：

GELU 啟用函式：首先，我們需要實作 GELU 啟用函式，這是一種常用的啟用函式。
前向傳播網路：接下來，我們需要實作前向傳播網路，這包括了多個全連線層和啟用函式。
層歸一化：然後，我們需要實作層歸一化，這是一種用於正則化網路的技術。
捷徑連線：最後，我們需要實作捷徑連線，這包括了新增一條額外的連線，將輸入直接連線到輸出的某一層。

透過新增捷徑連線，我們可以改善網路的訓練效能，從而提高網路的準確率。

捷徑連線的優點

捷徑連線有以下幾個優點：

改善梯度流動：捷徑連線可以幫助保留梯度的流動，從而改善網路的訓練效能。
提高準確率：透過新增捷徑連線，我們可以提高網路的準確率。
簡化網路結構：捷徑連線可以簡化網路結構，從而減少網路的複雜度。

總之，捷徑連線是一種重要的技術，用於改善深度神經網路的訓練效能。透過新增捷徑連線，我們可以改善梯度流動，提高準確率，簡化網路結構。

深度神經網路基礎：GPT 模型構建

在實作 GPT 模型的過程中，我們需要幾個基本的構建塊。這些構建塊包括 Transformer 層、自注意力機制以及全連線層等。以下，我們將詳細介紹如何實作這些構建塊，並最終組裝成一個完整的 GPT 模型。

1. Transformer 層

Transformer 層是 GPT 模型的核心部分，它負責處理輸入序列的自注意力機制。Transformer 層由兩個子層組成：自注意力層和全連線層。

自注意力層

自注意力層負責計算輸入序列中不同位置之間的注意力權重。這是透過計算 Query、Key 和 Value 矩陣之間的點積來實作的。

import torch
import torch.nn as nn
import torch.nn.functional as F

class SelfAttention(nn.Module):
    def __init__(self, embed_dim, num_heads):
        super(SelfAttention, self).__init__()
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.query_linear = nn.Linear(embed_dim, embed_dim)
        self.key_linear = nn.Linear(embed_dim, embed_dim)
        self.value_linear = nn.Linear(embed_dim, embed_dim)
        self.dropout = nn.Dropout(0.1)

    def forward(self, x):
        # 分別計算 Query、Key 和 Value 矩陣
        query = self.query_linear(x)
        key = self.key_linear(x)
        value = self.value_linear(x)

        # 計算注意力權重
        attention_weights = torch.matmul(query, key.T) / math.sqrt(self.embed_dim)

        # 將注意力權重應用於 Value 矩陣
        attention_output = torch.matmul(attention_weights, value)

        # 新增 dropout
        attention_output = self.dropout(attention_output)

        return attention_output

全連線層

全連線層負責對輸入序列進行線性變換和啟用。

class FeedForward(nn.Module):
    def __init__(self, embed_dim, hidden_dim):
        super(FeedForward, self).__init__()
        self.linear1 = nn.Linear(embed_dim, hidden_dim)
        self.linear2 = nn.Linear(hidden_dim, embed_dim)
        self.gelu = nn.GELU()

    def forward(self, x):
        # 線性變換和啟用
        x = self.gelu(self.linear1(x))
        x = self.linear2(x)

        return x

2. GPT 模型架構

GPT 模型由多個 Transformer 層堆積疊而成，每個 Transformer 層包含自注意力層和全連線層。

class GPT(nn.Module):
    def __init__(self, num_layers, embed_dim, num_heads, hidden_dim):
        super(GPT, self).__init__()
        self.num_layers = num_layers
        self.embed_dim = embed_dim
        self.num_heads = num_heads
        self.hidden_dim = hidden_dim

        # 初始化 Transformer 層
        self.transformer_layers = nn.ModuleList([SelfAttention(embed_dim, num_heads) for _ in range(num_layers)])

    def forward(self, x):
        # 對輸入序列進行處理
        for layer in self.transformer_layers:
            x = layer(x)

        return x

3. 示例神經網路

以下是一個簡單的神經網路示例，展示瞭如何使用上述構建塊實作一個深度神經網路。

class ExampleDeepNeuralNetwork(nn.Module):
    def __init__(self, layer_sizes, use_shortcut):
        super(ExampleDeepNeuralNetwork, self).__init__()
        self.use_shortcut = use_shortcut
        self.layers = nn.ModuleList([
            nn.Linear(layer_sizes[i], layer_sizes[i+1]) for i in range(len(layer_sizes)-1)
        ])

    def forward(self, x):
        for i, layer in enumerate(self.layers):
            x = F.gelu(layer(x))

            # 新增 shortcut 連線
            if self.use_shortcut and i > 0:
                x += self.layers[i-1].weight

        return x

圖表翻譯：

此圖示為 GPT 模型的基本架構，展示瞭如何堆積疊多個 Transformer 層以實作一個完整的 GPT 模型。

  flowchart TD
    A[輸入序列] --> B[SelfAttention]
    B --> C[FeedForward]
    C --> D[輸出序列]
    D --> E[GPT模型]

此圖表展示了 GPT 模型的基本流程，從輸入序列到輸出序列的整個過程。SelfAttention 層負責計算注意力權重，而 FeedForward 層則負責對輸入序列進行線性變換和啟用。最終，GPT 模型將輸出序列作為輸出結果。

深度神經網路啟用函式與線性層結合

在深度學習中，啟用函式和線性層是構建神經網路的基礎元件。啟用函式負責引入非線性，使得模型能夠學習和表示更複雜的關係，而線性層則負責進行特徵轉換和維度變換。這裡，我們將探討GELU（Gaussian Error Linear Units）啟用函式和線性層的結合使用。

GELU 啟用函式

GELU是一種自我引入的非線性啟用函式，與ReLU（Rectified Linear Unit）相比，它能夠更好地處理負值輸入。GELU的公式為：

[ \text{GELU}(x) = x \cdot \Phi(x) ]

其中，(\Phi(x))是標準高斯分佈的累積分佈函式。這使得GELU能夠根據輸入的值動態調整其非線性的程度。

線性層

線性層是一種基本的神經網路層，它對輸入進行線性變換。給定輸入向量(x)和權重矩陣(W)，以及偏置向量(b)，線性層的輸出為：

[ y = Wx + b ]

線性層常用於特徵提取、維度變換等任務。

結合使用

當我們將GELU啟用函式和線性層結合使用時，我們可以建立出更強大的神經網路結構。例如，一個簡單的神經網路可能由多個線性層和GELU啟用函式交替組成：

輸入層：接收輸入資料。
線性層1：對輸入進行初步的線性變換。
GELU啟用函式：引入非線性，使得模型能夠學習更複雜的模式。
線性層2：進一步變換特徵，以便於下游任務。
GELU啟用函式：再次引入非線性，增強模型的表達能力。

這種結構可以根據具體任務的需求進行擴充套件和修改，例如增加更多的層或使用不同的啟用函式。

內容解密：

import torch
import torch.nn as nn

class GELU(nn.Module):
    def __init__(self):
        super(GELU, self).__init__()
    
    def forward(self, x):
        return 0.5 * x * (1 + torch.tanh(torch.sqrt(2 / torch.pi) * (x + 0.044715 * torch.pow(x, 3))))

class LinearLayer(nn.Module):
    def __init__(self, input_dim, output_dim):
        super(LinearLayer, self).__init__()
        self.linear = nn.Linear(input_dim, output_dim)
    
    def forward(self, x):
        return self.linear(x)

# 示例：建立一個簡單的神經網路
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.linear1 = LinearLayer(10, 20)
        self.gelu = GELU()
        self.linear2 = LinearLayer(20, 10)
    
    def forward(self, x):
        x = self.linear1(x)
        x = self.gelu(x)
        x = self.linear2(x)
        return x

# 初始化網路和輸入
net = SimpleNet()
input_data = torch.randn(1, 10)

# 執行網路
output = net(input_data)
print(output.shape)

圖表翻譯：

  flowchart TD
    A[輸入層] --> B[線性層1]
    B --> C[GELU啟用函式]
    C --> D[線性層2]
    D --> E[輸出層]

這個圖表展示了簡單神經網路的結構，從輸入層開始，透過線性層和GELU啟用函式，最終到達輸出層。這種結構可以根據具體任務的需求進行擴充套件和修改。

深度神經網路最佳化技術

在深度學習中，神經網路的設計和最佳化是一個非常重要的議題。傳統的深度神經網路（DNN）由多層神經元組成，每一層都會對輸入的資料進行特定的轉換。然而，隨著網路的加深，梯度消失和爆炸的問題就會出現，嚴重影響網路的訓練效率和準確度。

線性啟用函式

線性啟用函式是一種簡單的啟用函式，輸出與輸入成正比。然而，這種啟用函式並不適合用於深度神經網路，因為它無法引入非線性，使得網路的表達能力有限。

GELU 啟用函式

GELU（Gaussian Error Linear Unit）是一種常用的啟用函式，它可以引入非線性，並且對於深度神經網路的訓練有很好的效果。GELU 的輸出為 0.5 * (1 + erf(x / sqrt(2)))，其中 erf 是誤差函式。

殘差連線

殘差連線（shortcut connection）是一種特殊的連線方式，它可以將前面的層的輸出直接傳遞到後面的層。這種連線方式可以有效地解決梯度消失和爆炸的問題，並且可以提高網路的訓練效率和準確度。

梯度分析

在訓練深度神經網路的過程中，梯度的大小對於網路的收斂速度和準確度有很大的影響。一般來說，梯度越大，網路的收斂速度越快，但是也越容易發生梯度爆炸的問題。下面是一個簡單的梯度分析：

層次	梯度
Layer 1	0.0050
Layer 2	0.0013
Layer 3	0.0007
Layer 4	0.0001
Layer 5	1.32

從上面的表格可以看出，Layer 5 的梯度遠遠大於其他層，這可能是因為該層的引數更新步伐太大，導致梯度爆炸。

最佳化技術

為瞭解決梯度消失和爆炸的問題，可以使用一些最佳化技術，例如：

梯度裁剪：限制梯度的大小，防止梯度爆炸。
梯度規範化：對梯度進行規範化，防止梯度爆炸。
殘差連線：使用殘差連線來解決梯度消失和爆炸的問題。

內容解密：

上述內容介紹了深度神經網路的最佳化技術，包括線性啟用函式、GELU 啟用函式、殘差連線和梯度分析。這些技術可以有效地解決梯度消失和爆炸的問題，並且可以提高網路的訓練效率和準確度。

  graph LR
    A[輸入] --> B[線性啟用函式]
    B --> C[GELU 啟用函式]
    C --> D[殘差連線]
    D --> E[梯度分析]
    E --> F[最佳化技術]

圖表翻譯：

上述流程圖展示了深度神經網路的最佳化過程。首先，輸入資料會經過線性啟用函式和 GELU 啟用函式的轉換。然後，殘差連線會將前面的層的輸出直接傳遞到後面的層。最後，梯度分析會對網路的梯度進行分析，並且使用最佳化技術來解決梯度消失和爆炸的問題。

從技術架構視角來看，本文深入探討了構建深度神經網路，特別是類別GPT模型的關鍵技術，包含GELU啟用函式、前向傳播網路、捷徑連線以及Transformer的核心元件：自注意力機制。分析了GELU啟用函式相較於傳統線性啟用函式的優勢，及其與線性層結合如何提升模型的非線性表達能力。此外，文章詳細闡述了捷徑連線如何有效緩解深度網路中的梯度消失問題，並以圖表和程式碼示例展示了其實作方式。透過對輸入輸出維度的分析，以及Transformer層中自注意力機制和前向網路的架構解析，更清晰地展現了GPT模型的內部運作機制。然而，構建高效能的深度神經網路並非易事，仍需關注模型引數量、計算複雜度以及過擬合等潛在挑戰。玄貓認為，隨著硬體效能的提升和訓練策略的最佳化，根據Transformer的深度學習模型將持續在自然語言處理領域發揮關鍵作用，並在更多領域展現其強大的應用潛力。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。