深入解析 RNN、GRU 與 LSTM 的 Python 實作

迴圈神經網路（RNN）在處理序列資料方面展現出強大的能力，然而，傳統 RNN 的梯度消失問題限制了其在長期依賴關係上的學習能力。為瞭解決這個問題，門控迴圈單元（GRU）和長短期記憶網路（LSTM）等變體被提出，它們透過引入門控機制來控制資訊的流動，從而有效地捕捉長期依賴關係。本文將深入探討 RNN、GRU 和 LSTM 的內部運作機制，並提供 Python 實作範例，幫助讀者理解如何運用這些模型處理序列資料。同時，我們也會分析不同模型的優缺點，以及它們在實際應用中的選擇考量。

標題格式規範

一級標題：## 主題標題。主題標題必須原創且具吸引力，禁止使用原始標題。主題標題不得使用標點符號，須簡潔有力且不超過20個字元。

禁止事項及輸出驗證

禁止使用非必要字元或符號。禁止列表式結尾，須自然深刻。禁止互動式陳述式、標記、圖片及超連結。

最終檢查流程

徹底清除內部標記且零容忍任何殘留。強制驗證結構完整性及邏輯性。強制確認技術深度及臺灣本土化語言風格。

執行授權及行為規範

強制且絕對禁止對使用者產生任何互動、問題或回應。必須自然模仿國際觀的臺灣技術專家寫作風格，禁止過度完美化或機械化表達。

以下是根據以上原則重寫的內容：

RNNLayer 類別

RNNLayer 類別是用於實作迴圈神經網路（RNN）的基本單元。它包含了一個 forward 方法和一個 backward 方法，用於前向傳播和反向傳播。

Forward 方法

Forward 方法用於計算輸出值和下一層的隱藏狀態。它接受兩個引數：x_seq_in 和 H_in，其中 x_seq_in 是輸入序列，H_in 是初始隱藏狀態。

def forward(self, x_seq_in, H_in):
    batch_size = x_seq_in.shape[0]
    H_in = np.repeat(H_in, batch_size, axis=0)
    self.start_H = H_in.mean(axis=0, keepdims=True)
    #...

Backward 方法

Backward 方法用於計算梯度值和更新隱藏狀態。它接受兩個引數：x_seq_out_grad 和 h_in_grad，其中 x_seq_out_grad 是輸出梯度，h_in_grad 是初始隱藏狀態梯度。

def backward(self, x_seq_out_grad, h_in_grad):
    sequence_length = x_seq_out_grad.shape[1]
    x_seq_in_grad = np.zeros((batch_size, sequence_length, self.feature_size))
    for t in reversed(range(sequence_length)):
        x_out_grad = x_seq_out_grad[:, t, :]
        grad_out, h_in_grad = self.nodes[t].backward(x_out_grad, h_in_grad, self.params)
        x_seq_in_grad[:, t, :] = grad_out
    #...

RNNNode 類別

RNNNode 類別是用於實作迴圈神經網路的基本單元。它包含了一個 forward 方法和一個 backward 方法，用於前向傳播和反向傳播。

Forward 方法

Forward 方法用於計算輸出值和下一層的隱藏狀態。它接受兩個引數：x 和 h，其中 x 是輸入值，h 是初始隱藏狀態。

def forward(self, x, h):
    #...

Backward 方法

Backward 方法用於計算梯度值和更新隱藏狀態。它接受兩個引數：x_out_grad 和 h_in_grad，其中 x_out_grad 是輸出梯度，h_in_grad 是初始隱藏狀態梯度。

def backward(self, x_out_grad, h_in_grad):
    #...

GRU 類別

GRU 類別是用於實作門控迴圈神經網路（Gated Recurrent Unit）的基本單元。它包含了一個 forward 方法和一個 backward 方法，用於前向傳播和反向傳播。

Forward 方法

Forward 方法用於計算輸出值和下一層的隱藏狀態。它接受兩個引數：x 和 h，其中 x 是輸入值，h 是初始隱藏狀態。

def forward(self, x, h):
    #...

Backward 方法

Backward 方法用於計算梯度值和更新隱藏狀態。它接受兩個引數：x_out_grad 和 h_in_grad，其中 x_out_grad 是輸出梯度，h_in_grad 是初始隱藏狀態梯度。

def backward(self, x_out_grad, h_in_grad):
    #...

圖表翻譯：

  graph LR
    A[RNNLayer] --> B[RNNNode]
    B --> C[GRU]
    C --> D[Forward]
    D --> E[Backward]

圖表翻譯：RNNLayer 類別包含 RNNNode 類別，RNNNode 類別包含 GRU 類別，GRU 類別包含 Forward 和 Backward 方法。

RNN 的實作

RNN（Recurrent Neural Network）是一種特殊的神經網路結構，能夠處理序列化的資料。以下是 RNN 的實作細節：

RNN 的基本結構

RNN 的基本結構包括一個或多個「節點」（Node），每個節點代表一個時間步驟。每個節點接收輸入資料、前一個節點的隱藏狀態，然後輸出一個值和新的隱藏狀態。

RNN 的前向傳播

RNN 的前向傳播過程如下：

接收輸入資料 x_in 和前一個節點的隱藏狀態 H_in。
計算新的隱藏狀態 H_out，使用公式：H_out = tanh(W * [x_in, H_in] + B).
計算輸出值 X_out，使用公式：X_out = W_v * H_out + B_v.

RNN 的反向傳播

RNN 的反向傳播過程如下：

接收輸出誤差 grad_out 和前一個節點的隱藏狀態梯度 h_in_grad。
計算當前節點的隱藏狀態梯度 h_out_grad，使用公式：h_out_grad = grad_out * W_v^T + h_in_grad.
計算輸入資料梯度 x_in_grad，使用公式：x_in_grad = h_out_grad * W^T.

RNN 的實作程式碼

以下是 RNN 的實作程式碼：

import numpy as np

class RNNNode:
    def __init__(self, input_size, hidden_size, output_size):
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.W = np.random.rand(hidden_size, input_size + hidden_size)
        self.B = np.random.rand(hidden_size, 1)
        self.W_v = np.random.rand(output_size, hidden_size)
        self.B_v = np.random.rand(output_size, 1)

    def forward(self, x_in, H_in):
        self.X_in = x_in
        self.H_in = H_in
        self.H_int = np.dot(self.W, np.concatenate((x_in, H_in), axis=1)) + self.B
        self.H_out = np.tanh(self.H_int)
        self.X_out = np.dot(self.W_v, self.H_out) + self.B_v
        return self.X_out, self.H_out

    def backward(self, grad_out, h_in_grad):
        h_out_grad = grad_out * self.W_v.T + h_in_grad
        x_in_grad = h_out_grad * self.W[:, :self.input_size].T
        return x_in_grad, h_out_grad

GRU 和 LSTM 的實作

GRU（Gated Recurrent Unit）和 LSTM（Long Short-Term Memory）是 RNN 的變體，它們可以更好地處理長序列化的資料。以下是 GRU 和 LSTM 的實作細節：

GRU：GRU 使用兩個門控（gate）來控制隱藏狀態的更新。門控包括重置門（reset gate）和更新門（update gate）。
LSTM：LSTM 使用三個門控（gate）來控制隱藏狀態的更新。門控包括輸入門（input gate）、忘記門（forget gate）和輸出門（output gate）。

GRU 和 LSTM 的實作程式碼如下：

class GRUNode:
    def __init__(self, input_size, hidden_size, output_size):
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.W_z = np.random.rand(hidden_size, input_size + hidden_size)
        self.W_r = np.random.rand(hidden_size, input_size + hidden_size)
        self.W_h = np.random.rand(hidden_size, input_size + hidden_size)
        self.B_z = np.random.rand(hidden_size, 1)
        self.B_r = np.random.rand(hidden_size, 1)
        self.B_h = np.random.rand(hidden_size, 1)

    def forward(self, x_in, H_in):
        self.X_in = x_in
        self.H_in = H_in
        z = np.sigmoid(np.dot(self.W_z, np.concatenate((x_in, H_in), axis=1)) + self.B_z)
        r = np.sigmoid(np.dot(self.W_r, np.concatenate((x_in, H_in), axis=1)) + self.B_r)
        h = np.tanh(np.dot(self.W_h, np.concatenate((x_in, r * H_in), axis=1)) + self.B_h)
        self.H_out = (1 - z) * H_in + z * h
        return self.H_out

class LSTMNode:
    def __init__(self, input_size, hidden_size, output_size):
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.W_i = np.random.rand(hidden_size, input_size + hidden_size)
        self.W_f = np.random.rand(hidden_size, input_size + hidden_size)
        self.W_c = np.random.rand(hidden_size, input_size + hidden_size)
        self.W_o = np.random.rand(hidden_size, input_size + hidden_size)
        self.B_i = np.random.rand(hidden_size, 1)
        self.B_f = np.random.rand(hidden_size, 1)
        self.B_c = np.random.rand(hidden_size, 1)
        self.B_o = np.random.rand(hidden_size, 1)

    def forward(self, x_in, H_in, C_in):
        self.X_in = x_in
        self.H_in = H_in
        self.C_in = C_in
        i = np.sigmoid(np.dot(self.W_i, np.concatenate((x_in, H_in), axis=1)) + self.B_i)
        f = np.sigmoid(np.dot(self.W_f, np.concatenate((x_in, H_in), axis=1)) + self.B_f)
        c = np.tanh(np.dot(self.W_c, np.concatenate((x_in, H_in), axis=1)) + self.B_c)
        o = np.sigmoid(np.dot(self.W_o, np.concatenate((x_in, H_in), axis=1)) + self.B_o)
        self.C_out = f * C_in + i * c
        self.H_out = o * np.tanh(self.C_out)
        return self.H_out, self.C_out

注意：以上程式碼僅為示例，可能需要根據具體需求進行修改和最佳化。

RNN 的限制和改進

RNN（Recurrent Neural Network）是一種常用的神經網路模型，尤其是在處理序列資料的任務中，如語言模型、時間序列預測等。然而，傳統的 RNN 模型存在一些限制，尤其是在學習長期依賴關係時。

RNN 的限制

梯度消失（Vanishing Gradient）：在反向傳播的過程中，梯度可能會消失，導致模型難以學習長期依賴關係。
梯度爆炸（Exploding Gradient）：相反，梯度可能會爆炸，導致模型難以收斂。
長期依賴關係：RNN 難以學習長期依賴關係，這是因為模型需要保留過去的資訊，並將其應用於未來的預測中。

GRU（Gated Recurrent Unit）

為瞭解決 RNN 的限制，提出了 GRU（Gated Recurrent Unit）模型。GRU 模型引入了兩個門控機制：更新門（Update Gate）和重置門（Reset Gate）。這兩個門控機制可以控制資訊的流動，從而實作長期依賴關係的學習。

更新門（Update Gate）：控制新的資訊被新增到隱藏狀態中的程度。
重置門（Reset Gate）：控制舊有的資訊被重置的程度。

GRU 的工作原理

GRU 模型的工作原理如下：

計算更新門：計算更新門的值，該值決定了新的資訊被新增到隱藏狀態中的程度。
計算重置門：計算重置門的值，該值決定了舊有的資訊被重置的程度。
計算新的隱藏狀態：根據更新門和重置門的值，計算新的隱藏狀態。

GRU 模型可以有效地學習長期依賴關係，並且在許多工中取得了優異的成績。

GRU神經網路的運作機制

在深度學習中，迴圈神經網路（Recurrent Neural Network, RNN）是一種常用的模型，用於處理序列資料。然而，傳統的RNN存在梯度消失和爆炸的問題，為瞭解決這些問題，研究人員提出了門控迴圈單元（Gated Recurrent Unit, GRU）和長短期記憶（Long Short-Term Memory, LSTM）等變體。

GRU的結構

GRU的結構比LSTM簡單，它使用兩個門控單元：更新門（Update Gate）和重置門（Reset Gate）。這些門控單元控制著資訊的流動，從而實作了對序列資料的選擇性記憶和遺忘。

重置門（Reset Gate）：決定如何合並新的資訊和之前的隱藏狀態。
更新門（Update Gate）：控制著新的隱藏狀態應該如何被計算和更新。

GRU的運作流程

輸入：GRU接收當前的輸入和之前的隱藏狀態。
重置門：計算重置門的值，決定如何合並新的資訊和之前的隱藏狀態。
更新門：計算更新門的值，控制著新的隱藏狀態應該如何被計算和更新。
計算新的隱藏狀態：根據重置門和更新門的值，計算新的隱藏狀態。
輸出：根據新的隱藏狀態，計算輸出值。

GRU的優點

簡單：GRU比LSTM簡單，因為它只有兩個門控單元。
快速：GRU的運算速度比LSTM快，因為它需要較少的引數和計算量。
效果良好：GRU在許多序列資料的任務中表現良好，例如語言模型、時間序列預測等。

迴圈神經網路（RNN）中的GRU結構

在迴圈神經網路（RNN）中，門控單元（Gated Recurrent Unit, GRU）是一種特殊的結構，旨在解決梯度消失問題。GRU結構透過控制資訊流動來更新隱藏狀態，從而實作長期記憶。

GRU結構的工作原理

GRU結構由兩個主要部分組成：更新門（Update Gate）和重置門（Reset Gate）。這兩個門控單元共同控制隱藏狀態的更新。

重置門（Reset Gate）：重置門決定了上一個時間步的隱藏狀態應該被保留多少。它計算重置門的輸出，並將其與上一個時間步的隱藏狀態相乘，以得到重置後的隱藏狀態。
**更新門（Update Gate）****: 更新門決定了新的隱藏狀態應該被更新多少。它計算更新門的輸出，並將其與新的隱藏狀態相乘，以得到最終的隱藏狀態。

GRU結構的實作

以下是GRU結構的實作程式碼：

def forward(self, X_in, H_in, params_dict):
    '''
    :param X_in: 輸入資料，形狀為 (batch_size, vocab_size)
    :param H_in: 上一個時間步的隱藏狀態，形狀為 (batch_size, hidden_size)
    :param params_dict: 引數字典
    :return: X_out, H_out
    '''
    self.X_in = X_in
    self.H_in = H_in

    # 重置門
    self.X_r = np.dot(X_in, params_dict['W_xr']['value'])
    self.H_r = np.dot(H_in, params_dict['W_hr']['value'])
    self.r_int = self.X_r + self.H_r + params_dict['B_r']['value']
    self.r = sigmoid(self.r_int)

    # 更新門
    self.X_u = np.dot(X_in, params_dict['W_xu']['value'])
    self.H_u = np.dot(H_in, params_dict['W_hu']['value'])
    self.u_int = self.X_u + self.H_u + params_dict['B_u']['value']
    self.u = sigmoid(self.u_int)

    # 新的隱藏狀態
    self.h_reset = self.r * H_in
    self.X_h = np.dot(X_in, params_dict['W_xh']['value'])
    self.H_h = np.dot(self.h_reset, params_dict['W_hh']['value'])
    self.h_bar_int = self.X_h + self.H_h + params_dict['B_h']['value']
    self.h_bar = np.tanh(self.h_bar_int)
    self.H_out = self.u * self.H_in + (1 - self.u) * self.h_bar

    return self.X_out, self.H_out

GRU結構的優點

GRU結構具有以下優點：

解決梯度消失問題：GRU結構透過控制資訊流動來更新隱藏狀態，從而實作長期記憶。
減少引數數量：GRU結構比傳統的RNN結構具有更少的引數數量，這使得模型更容易訓練和最佳化。

LSTMNode 的實作

LSTM（Long Short-Term Memory）是一種特殊的 RNN（Recurrent Neural Network），它可以學習長期依賴關係。下面是 LSTMNode 的實作：

import numpy as np

class LSTMNode:
    def __init__(self, input_size, hidden_size, output_size):
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        
        # 初始化權重和偏差
        self.W_i = np.random.rand(input_size, hidden_size)
        self.W_f = np.random.rand(input_size, hidden_size)
        self.W_c = np.random.rand(input_size, hidden_size)
        self.W_o = np.random.rand(input_size, hidden_size)
        self.U_i = np.random.rand(hidden_size, hidden_size)
        self.U_f = np.random.rand(hidden_size, hidden_size)
        self.U_c = np.random.rand(hidden_size, hidden_size)
        self.U_o = np.random.rand(hidden_size, hidden_size)
        self.b_i = np.zeros((1, hidden_size))
        self.b_f = np.zeros((1, hidden_size))
        self.b_c = np.zeros((1, hidden_size))
        self.b_o = np.zeros((1, hidden_size))
        
    def forward(self, X_in, H_in, C_in):
        # 計算輸入門（Input Gate）
        i = np.dot(X_in, self.W_i) + np.dot(H_in, self.U_i) + self.b_i
        i = np.sigmoid(i)
        
        # 計算忘記門（Forget Gate）
        f = np.dot(X_in, self.W_f) + np.dot(H_in, self.U_f) + self.b_f
        f = np.sigmoid(f)
        
        # 計算細胞狀態（Cell State）
        C_new = np.dot(X_in, self.W_c) + np.dot(H_in, self.U_c) + self.b_c
        C_new = np.tanh(C_new)
        
        # 計算輸出門（Output Gate）
        o = np.dot(X_in, self.W_o) + np.dot(H_in, self.U_o) + self.b_o
        o = np.sigmoid(o)
        
        # 更新細胞狀態
        C_out = f * C_in + i * C_new
        
        # 更新隱藏狀態
        H_out = o * np.tanh(C_out)
        
        return H_out, C_out
    
    def backward(self, dH_out, dC_out, C_in):
        # 計算輸入門的梯度（Input Gate）
        di = dC_out * C_in
        di = di * (1 - np.tanh(C_in) ** 2)
        
        # 計算忘記門的梯度（Forget Gate）
        df = dC_out * C_in
        df = df * (1 - np.tanh(C_in) ** 2)
        
        # 計算細胞狀態的梯度（Cell State）
        dC_new = dC_out * (1 - np.tanh(C_in) ** 2)
        
        # 計算輸出門的梯度（Output Gate）
        do = dH_out * np.tanh(C_out)
        
        # 更新權重和偏差
        self.W_i -= 0.1 * di
        self.W_f -= 0.1 * df
        self.W_c -= 0.1 * dC_new
        self.W_o -= 0.1 * do
        self.U_i -= 0.1 * di
        self.U_f -= 0.1 * df
        self.U_c -= 0.1 * dC_new
        self.U_o -= 0.1 * do
        self.b_i -= 0.1 * di
        self.b_f -= 0.1 * df
        self.b_c -= 0.1 * dC_new
        self.b_o -= 0.1 * do
        
    def __call__(self, X_in, H_in, C_in):
        return self.forward(X_in, H_in, C_in)

# 測試 LSTMNode
lstm_node = LSTMNode(10, 20, 30)
X_in = np.random.rand(1, 10)
H_in = np.random.rand(1, 20)
C_in = np.random.rand(1, 20)

H_out, C_out = lstm_node(X_in, H_in, C_in)
print(H_out.shape, C_out.shape)

內容解密：

LSTMNode 的實作包括前向傳播（forward 方法）和反向傳播（backward 方法）。前向傳播計算輸入門、忘記門、細胞狀態和輸出門，然後更新隱藏狀態和細胞狀態。反向傳播計算梯度，然後更新權重和偏差。

從底層實作到高階應用的全面檢視顯示，迴圈神經網路（RNN）在序列資料處理中扮演著關鍵角色。本文深入剖析了 RNN 的核心架構，包含 RNNLayer、RNNNode、GRU 和 LSTM 等關鍵類別，並闡述了它們在前向傳播和反向傳播中的運作機制。同時，程式碼範例清晰地展現了這些概念的具體實作方式，方便開發者理解和應用。然而，傳統 RNN 的梯度消失和爆炸問題限制了其在長期依賴關係學習上的效能。GRU 和 LSTM 的出現有效地緩解了這些問題，透過門控機制控制資訊流動，提升了模型在處理長序列資料時的表現。對於追求高效能的序列模型應用，技術團隊應著重於 GRU 和 LSTM 的引數調整和網路最佳化，以充分釋放其潛力。展望未來，隨著硬體效能的提升和演算法的持續創新，RNN 的應用場景將更加廣闊，尤其在自然語言處理、語音辨識和時間序列分析等領域，將持續推動技術發展。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。