神經網路活化函式與反向傳播演算法解析

神經網路的活化函式為模型引入了非線性，使其能夠學習複雜的模式。常見的活化函式包含 Sigmoid、ReLU 和 Tanh，各有其特性和適用場景。Sigmoid 函式將輸入壓縮到 0 到 1 之間，適合二元分類問題；ReLU 函式則將負值輸出為 0，正值保持不變，有效解決梯度消失問題；Tanh 函式將輸入壓縮到 -1 到 1 之間，有助於模型訓練的穩定性。理解這些函式的特性對於選擇合適的活化函式至關重要，進而影響模型的效能。反向傳播演算法則是一種有效訓練神經網路的方法，它透過計算損失函式對各個權重的梯度，並利用梯度下降法更新權重，逐步降低模型的誤差。

神經網路中的活化函式

在神經網路中，活化函式（activation function）是一個非常重要的組成部分。它們被用來引入非線性因素，使得神經網路能夠學習和代表更加複雜的關係。活化函式的輸出值通常用來作為下一層神經元的輸入。

活化函式的作用

活化函式的主要作用是將神經元的輸入值轉換為一個非線性的輸出值。這使得神經網路能夠學習和代表更加複雜的模式和關係。常見的活化函式包括Sigmoid函式、ReLU（Rectified Linear Unit）函式和Tanh函式等。

神經網路中的活化函式應用

在神經網路中，活化函式通常被應用在每一層的神經元之間。例如，在一個簡單的神經網路中，輸入值 $x_A$ 和 $x_B$ 被輸入到第一層的神經元中，然後經過權重 $w_1$ 和 $w_3$ 的線性組合，得到一個中間值。然後，活化函式 $\sigma$ 被應用到這個中間值上，得到一個非線性的輸出值 $y_C$。

$$y_C = \sigma(w_1 \cdot x_A + w_3 \cdot x_B)$$

這個非線性的輸出值 $y_C$ 就是下一層神經元的輸入值。這個過程被重複應用到每一層的神經元中，直到得到最終的輸出值。

程式碼實作

以下是一個簡單的Python程式碼，示範瞭如何實作一個神經網路中的活化函式：

import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def relu(x):
    return np.maximum(x, 0)

def tanh(x):
    return np.tanh(x)

# 定義輸入值和權重
x_A = 1.0
x_B = 2.0
w_1 = 0.5
w_3 = 0.3

# 計算中間值
middle_value = w_1 * x_A + w_3 * x_B

# 應用活化函式
y_C = sigmoid(middle_value)

print(y_C)

這個程式碼定義了三種不同的活化函式：Sigmoid函式、ReLU函式和Tanh函式。然後，它們被應用到一個簡單的神經網路中，計算出最終的輸出值。

圖表翻譯：

以下是Mermaid圖表，示範了神經網路中的活化函式：

  graph LR
    A[輸入值 x_A] -->|權重 w_1|> B[中間值]
    C[輸入值 x_B] -->|權重 w_3|> B
    B -->|活化函式 σ|> D[非線性輸出值 y_C]
    D -->|輸出值|> E[最終輸出]

這個圖表展示了神經網路中的活化函式如何被應用到每一層的神經元之間。

神經網路中的前向傳播

在神經網路中，前向傳播（Forward Propagation）是一個非常重要的過程，它描述瞭如何將輸入資料經過多層神經元的處理，最終得到輸出的結果。這個過程涉及到每一層神經元的啟用函式、權重和偏差的計算。

啟用函式的選擇

啟用函式（Activation Function）是神經網路中的一個關鍵元件，它決定了神經元的輸出如何被轉換。常見的啟用函式包括Sigmoid、ReLU（Rectified Linear Unit）和Tanh等。這些函式的選擇取決於網路的設計和需求。

權重和偏差的計算

在前向傳播的過程中，每一層的神經元都會接收到上一層的輸出，並根據其權重和偏差進行計算。權重決定了每個神經元對輸入的敏感度，而偏差則調整了神經元的啟用閾值。

前向傳播的步驟

以下是前向傳播的基本步驟：

輸入層: 輸入資料被送入網路的輸入層。
隱藏層: 輸入資料經過權重和偏差的計算，然後被啟用函式處理，得到隱藏層的輸出。
輸出層: 隱藏層的輸出被送入輸出層，經過最後一次的計算和啟用函式處理，得到最終的輸出。

具體計算過程

假設我們有一個簡單的神經網路，包含兩個輸入神經元（(x_A)和(x_B)）、兩個隱藏神經元（(y_C)和(y_D)）和一個輸出神經元。權重分別為(w_1)和(w_3)，偏差為(b)。啟用函式為Sigmoid函式，(\sigma(x) = \frac{1}{1 + e^{-x}})。

給定的輸入為(x_A = 0.1)和(x_B = 0.4)，權重為(w_1 = 0.23)和(w_3 = 0.82)，我們可以計算出隱藏層的輸出：

[y_C = \sigma(w_1 \cdot x_A + w_3 \cdot x_B)] [y_C = \sigma(0.23 \cdot 0.1 + 0.82 \cdot 0.4)] [y_C = \sigma(0.023 + 0.328)] [y_C = \sigma(0.351)] [y_C = \frac{1}{1 + e^{-0.351}}] [y_C \approx 0.5868]

這樣，透過前向傳播的過程，我們得到了隱藏層的一個輸出值。這個值將被用於計算下一層的輸出，直到得到最終的輸出結果。

圖表翻譯：

  graph LR
    A[輸入層] -->|x_A, x_B|> B[隱藏層]
    B -->|y_C, y_D|> C[輸出層]
    C -->|最終輸出|> D[結果]
    style A fill:#f9f,stroke:#333,stroke-width:4px
    style B fill:#f9f,stroke:#333,stroke-width:4px
    style C fill:#f9f,stroke:#333,stroke-width:4px
    style D fill:#f9f,stroke:#333,stroke-width:4px

這個圖表展示了神經網路中前向傳播的基本流程，從輸入層到隱藏層，然後到輸出層，最終得到結果。每一層的輸出都被用於計算下一層的輸出，直到得到最終的結果。

神經網路中的啟用函式

在神經網路中，啟用函式（activation function）扮演著非常重要的角色。它們負責將神經元的輸出轉換為非線性的輸出，以此來增加神經網路的表達能力。啟用函式的選擇對於神經網路的效能有著重大影響。

Sigmoid 啟用函式

Sigmoid 啟用函式是一種常見的啟用函式，尤其是在早期的神經網路中。它的公式為：

$$\sigma(x) = \frac{1}{1 + e^{-x}}$$

其中，$e$ 是自然對數的底數，約為 2.71828。

實際應用

在實際應用中，Sigmoid 啟用函式常被用於二元分類問題。例如，在一個簡單的神經網路中，我們可能有兩個輸入神經元 $x_A$ 和 $x_B$，以及兩個權重 $w_2$ 和 $w_4$。輸出神經元 $z_E$ 的計算公式可能如下：

$$z_E = \sigma(w_2 \cdot x_A + w_4 \cdot x_B)$$

假設 $w_2 = 0.23$、$w_4 = 0.82$、$x_A = 0.5$ 和 $x_B = 0.3$，則 $z_E$ 的計算結果為：

$$z_E = \sigma(0.23 \cdot 0.5 + 0.82 \cdot 0.3) = \sigma(0.115 + 0.246) = \sigma(0.361)$$

使用 Sigmoid 啟用函式，$z_E$ 的輸出將為：

$$z_E = \frac{1}{1 + e^{-0.361}} \approx 0.5982$$

這個結果表示輸出神經元 $z_E$ 的啟用程度約為 59.82%。

內容解密：

在上述計算中，我們使用了 Sigmoid 啟用函式來計算輸出神經元 $z_E$ 的啟用程度。這個過程涉及到權重與輸入的乘積、加法以及啟用函式的應用。Sigmoid 啟用函式的輸出範圍為 (0, 1)，使其特別適合於二元分類問題。

import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

w2 = 0.23
w4 = 0.82
xA = 0.5
xB = 0.3

zE = sigmoid(w2 * xA + w4 * xB)
print("zE 的輸出:", zE)

圖表翻譯：

以下是 Sigmoid 啟用函式的 Mermaid 圖表：

  graph LR
    A[輸入] -->|w2|x2
    B[輸入] -->|w4|x4
    x2 + x4 --> C[Sigmoid]
    C --> D[輸出]

這個圖表展示了 Sigmoid 啟用函式如何將輸入的線性組合轉換為非線性的輸出。

神經網路的損失函式與最佳化

在神經網路中，損失函式（Loss Function）扮演著至關重要的角色，它用於衡量模型預測值與實際值之間的差異。選擇合適的損失函式對於模型的最佳化和效能有著直接的影響。在本節中，我們將探討損失函式的概念，特別是以二次損失函式（Quadratic Loss Function）為例，來瞭解它如何被應用於神經網路的訓練過程。

二次損失函式的定義

二次損失函式是一種常用的損失函式，尤其是在迴歸問題中。它的定義如下：

[ L = \frac{1}{2} (z - f(x_A, x_B))^2 ]

其中，( z ) 是實際值，( f(x_A, x_B) ) 是模型預測值，( x_A ) 和 ( x_B ) 是輸入特徵。

範例計算

假設我們有一個簡單的神經網路，輸入為 ( x_A = 0.2 ) 和 ( x_B = 0.6 )，實際值 ( z = 1 )，而模型預測值 ( f(x_A, x_B) = \sigma(0.5868 \cdot 0.2 + 0.5892 \cdot 0.6) )，其中 ( \sigma ) 是啟用函式。計算出預測值後，我們可以計算損失函式的值。

計算過程

首先，計算預測值： [ f(x_A, x_B) = \sigma(0.5868 \cdot 0.2 + 0.5892 \cdot 0.6) ] [ f(x_A, x_B) = \sigma(0.11736 + 0.35352) ] [ f(x_A, x_B) = \sigma(0.47088) ] 假設 ( \sigma(0.47088) \approx 0.6155 )，則： [ f(x_A, x_B) \approx 0.6155 ]

接著，計算損失函式： [ L = \frac{1}{2} (1 - 0.6155)^2 ] [ L = \frac{1}{2} (0.3845)^2 ] [ L = \frac{1}{2} \cdot 0.1479 ] [ L \approx 0.07395 ]

內容解密：

二次損失函式是一種基本的損失函式，尤其適合於迴歸問題的解決。透過計算預測值和實際值之間的差異的平方，然後取平均，我們可以得到損失函式的值。這個值反映了模型的預測準確性，越小的損失函式值意味著模型的預測結果越接近實際值。因此，二次損失函式在神經網路的訓練過程中扮演著重要的角色。

圖表翻譯：

  graph LR
    A[實際值] -->|輸入|> B[神經網路]
    B -->|預測|> C[預測值]
    C -->|計算損失|> D[損失函式]
    D -->|最佳化|> B

這個流程圖描述了神經網路的訓練過程，從實際值的輸入，到神經網路的預測，然後計算損失函式的值，最後根據損失函式的值來最佳化神經網路的引數。這個過程是迭代的，直到損失函式的值達到一個可接受的水平。

梯度下降演算法的實作

梯度下降演算法是一種用於最佳化模型引數的方法，目的是找到使損失函式最小化的引數值。在前一章中，我們已經介紹了梯度下降演算法的基本概念。現在，我們將更深入地探討這個演算法的實作細節。

梯度下降演算法的核心思想是對損失函式的每個引數計算偏導數，並根據這些偏導數更新引數的值。更新規則如下：

$$w = w - \eta \cdot \frac{\partial L}{\partial w}$$

其中，$w$ 是模型引數，$\eta$ 是學習率，$\frac{\partial L}{\partial w}$ 是損失函式對於引數 $w$ 的偏導數。

現在，我們需要計算損失函式對於引數 $w_5$ 的偏導數。為了簡化計算，我們可以使用鏈式法則（chain rule）：

$$\frac{\partial L}{\partial w_5} = \frac{\partial}{\partial w_5} \left( \frac{1}{2} (z_E - 1)^2 \right)$$

使用鏈式法則，我們可以將上述表示式分解為兩個部分：

$$\frac{\partial L}{\partial w_5} = \frac{\partial}{\partial z_E} \left( \frac{1}{2} (z_E - 1)^2 \right) \cdot \frac{\partial z_E}{\partial w_5}$$

現在，我們需要計算每個部分的偏導數。

第一部分的偏導數

第一部分的偏導數是：

$$\frac{\partial}{\partial z_E} \left( \frac{1}{2} (z_E - 1)^2 \right) = (z_E - 1)$$

第二部分的偏導數

第二部分的偏導數是：

$$\frac{\partial z_E}{\partial w_5} = \frac{\partial}{\partial w_5} (w_5 \cdot x) = x$$

因此，最終的偏導數是：

$$\frac{\partial L}{\partial w_5} = (z_E - 1) \cdot x$$

更新引數

現在，我們可以使用上述偏導數更新引數 $w_5$ 的值：

$$w_5 = w_5 - \eta \cdot (z_E - 1) \cdot x$$

這就是梯度下降演算法的基本步驟。透過反覆地計算偏導數和更新引數，我們可以找到使損失函式最小化的引數值。

內容解密

在上述過程中，我們使用了鏈式法則來計算偏導數。鏈式法則是一種用於計算複合函式偏導數的方法。它可以幫助我們簡化計算過程，並避免出錯。

在實際應用中，梯度下降演算法可以用於最佳化各種模型的引數，包括線性迴歸、邏輯迴歸、神經網路等。透過選擇合適的學習率和最佳化演算法，我們可以找到使模型效能最佳的引數值。

圖表翻譯

以下是梯度下降演算法的流程圖：

  flowchart TD
    A[初始化引數] --> B[計算損失函式]
    B --> C[計算偏導數]
    C --> D[更新引數]
    D --> E[重複步驟]

這個流程圖展示了梯度下降演算法的基本步驟。透過初始化引數、計算損失函式、計算偏導數和更新引數，我們可以找到使模型效能最佳的引數值。

神經網路中的反向傳播演算法

在深度學習中，反向傳播（Backpropagation）是一種用於訓練人工神經網路的演算法。它是一種高效的方法，能夠計算神經網路中每個神經元的誤差梯度，從而更新神經網路的權重和偏差。

反向傳播演算法的步驟

前向傳播：首先，輸入資料被傳入神經網路，然後神經網路按照其結構和權重進行計算，輸出預測結果。
計算損失函式：計算預測結果和真實標籤之間的差異，通常使用均方差或交叉熵等損失函式。
反向傳播：計算每個神經元的誤差梯度，從輸出層開始，逐層向後傳播，直到輸入層。

反向傳播演算法的數學推導

假設我們有一個簡單的神經網路，包含一個輸入層、一個隱藏層和一個輸出層。輸入層有 $n$ 個神經元，隱藏層有 $m$ 個神經元，輸出層有 $k$ 個神經元。

輸入層的輸出為 $\mathbf{x} = (x_1, x_2, \ldots, x_n)$，隱藏層的輸出為 $\mathbf{h} = (h_1, h_2, \ldots, h_m)$，輸出層的輸出為 $\mathbf{y} = (y_1, y_2, \ldots, y_k)$。

隱藏層的啟用函式為 $\sigma(\cdot)$，輸出層的啟用函式為 $\sigma(\cdot)$。

輸入層到隱藏層的權重為 $\mathbf{W}1 = (w{11}, w_{12}, \ldots, w_{nm})$，隱藏層到輸出層的權重為 $\mathbf{W}2 = (w{21}, w_{22}, \ldots, w_{mk})$。

假設我們使用均方差作為損失函式，則損失函式為：

$$L = \frac{1}{2} \sum_{i=1}^k (y_i - \hat{y}_i)^2$$

其中，$\hat{y}_i$ 是預測結果，$y_i$ 是真實標籤。

使用反向傳播演算法，計算每個神經元的誤差梯度，從輸出層開始，逐層向後傳播，直到輸入層。

程式碼實作

以下是使用 Python 和 NumPy 實作的簡單神經網路和反向傳播演算法：

import numpy as np

# 定義啟用函式
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# 定義隱藏層到輸出層的權重
W2 = np.random.rand(10, 10)

# 定義輸入層到隱藏層的權重
W1 = np.random.rand(10, 10)

# 定義輸入資料
X = np.random.rand(10, 10)

# 定義真實標籤
Y = np.random.rand(10, 10)

# 前向傳播
H = sigmoid(np.dot(X, W1))
Y_pred = sigmoid(np.dot(H, W2))

# 計算損失函式
L = np.mean((Y_pred - Y) ** 2)

# 反向傳播
dY_pred = 2 * (Y_pred - Y)
dH = dY_pred * Y_pred * (1 - Y_pred)
dW2 = np.dot(H.T, dY_pred)
dX = np.dot(dH, W1.T)

# 更新權重
W2 -= 0.01 * dW2
W1 -= 0.01 * np.dot(X.T, dH)

神經網路反向傳播演算法

在神經網路中，反向傳播演算法（Backpropagation）是一種用於訓練人工神經網路的演算法。它的主要目的是計算神經網路中每個神經元的誤差梯度，以便更新神經元的權重和偏差。

反向傳播演算法的步驟

前向傳播：輸入資料透過神經網路，計算每個神經元的輸出。
計算誤差：計算輸出層的誤差，通常使用均方差（Mean Squared Error, MSE）或交叉熵（Cross-Entropy）等損失函式。
反向傳播：計算每個神經元的誤差梯度，從輸出層開始，逐層向前計算。
更新權重和偏差：使用誤差梯度更新每個神經元的權重和偏差。

反向傳播演算法的數學推導

假設我們有一個神經網路，輸入層為 $x$，輸出層為 $y$，隱藏層為 $h$。輸出層的誤差為 $E = \frac{1}{2}(y - \hat{y})^2$，其中 $\hat{y}$ 是預測值。

使用鏈式法則，計算輸出層的誤差梯度：

$$ \frac{\partial E}{\partial w_5} = \frac{\partial E}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial w_5} $$

其中 $z = w_5 \cdot y_C + w_6 \cdot y_D$，$y_C$ 和 $y_D$ 是輸入層的輸出。

$$ \frac{\partial E}{\partial w_5} = - (y - \hat{y}) \cdot \sigma’(z) \cdot y_C $$

其中 $\sigma’(z)$ 是啟用函式的導數。

實作反向傳播演算法

import numpy as np

# 定義啟用函式和其導數
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

# 定義神經網路的結構
input_size = 2
hidden_size = 2
output_size = 1

# 初始化權重和偏差
w5 = np.random.rand(hidden_size, output_size)
w6 = np.random.rand(hidden_size, output_size)

# 定義輸入和輸出
x = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y = np.array([[0], [1], [1], [0]])

# 訓練神經網路
for i in range(1000):
    # 前向傳播
    z = np.dot(x, w5) + np.dot(x, w6)
    y_pred = sigmoid(z)

    # 計算誤差
    error = np.mean((y - y_pred) ** 2)

    # 反向傳播
    d_w5 = np.dot(x.T, (y - y_pred) * sigmoid_derivative(y_pred))
    d_w6 = np.dot(x.T, (y - y_pred) * sigmoid_derivative(y_pred))

    # 更新權重和偏差
    w5 -= 0.1 * d_w5
    w6 -= 0.1 * d_w6

    # 印出誤差
    print(f'Epoch {i+1}, Error: {error}')

神經網路反向傳播演算法

在深度學習中，反向傳播（Backpropagation）是一種用於訓練人工神經網路的演算法。它是透過最小化損失函式來最佳化神經網路的引數，從而提高網路的預測準確度。

反向傳播的基本概念

反向傳播的基本概念是透過計算神經網路的輸出與真實標籤之間的誤差，然後將這個誤差反向傳播到網路的每一層，從而更新每一層的引數。

反向傳播的步驟

前向傳播：首先，輸入輸入資料到神經網路中，然後將輸出結果與真實標籤進行比較，計算損失函式。
反向傳播：將損失函式的梯度計算出來，然後將梯度反向傳播到網路的每一層。
更新引數：將每一層的引數更新為新的值，從而最佳化神經網路的預測準確度。

反向傳播的公式

假設我們有一個神經網路，其輸出為 $y$, 真實標籤為 $y_{true}$, 損失函式為 $L(y, y_{true})$。則反向傳播的公式為：

$$ \frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial w} $$

其中，$w$ 是神經網路的引數，$\frac{\partial L}{\partial y}$ 是損失函式對於輸出的梯度，$\frac{\partial y}{\partial w}$ 是輸出對於引數的梯度。

啟用函式的梯度

在反向傳播中，啟用函式的梯度是非常重要的。啟用函式的梯度是指啟用函式對於輸入的梯度。常用的啟用函式有 sigmoid、ReLU、tanh 等。

Sigmoid 啟用函式的梯度

Sigmoid 啟用函式的梯度為：

$$ \frac{\partial \sigma}{\partial x} = \sigma(x) \cdot (1 - \sigma(x)) $$

ReLU 啟用函式的梯度

ReLU 啟用函式的梯度為：

$$ \frac{\partial ReLU}{\partial x} = \begin{cases} 1, & x > 0 \ 0, & x \leq 0 \end{cases} $$

程式碼實作

以下是使用 Python 和 NumPy 實作的反向傳播演算法：

import numpy as np

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def sigmoid_derivative(x):
    return x * (1 - x)

def relu(x):
    return np.maximum(x, 0)

def relu_derivative(x):
    return np.where(x > 0, 1, 0)

# 定義神經網路的引數
w1 = np.random.rand(2, 2)
w2 = np.random.rand(2, 1)

# 定義輸入和真實標籤
x = np.array([[0, 0], [0, 1], [1, 0], [1, 1]])
y_true = np.array([[0], [1], [1], [0]])

# 前向傳播
y1 = sigmoid(np.dot(x, w1))
y2 = sigmoid(np.dot(y1, w2))

# 計算損失函式
loss = np.mean((y2 - y_true) ** 2)

# 反向傳播
d_loss = 2 * (y2 - y_true)
d_w2 = np.dot(y1.T, d_loss * sigmoid_derivative(y2))
d_w1 = np.dot(x.T, np.dot(d_loss * sigmoid_derivative(y2), w2.T) * sigmoid_derivative(y1))

# 更新引數
w1 -= 0.1 * d_w1
w2 -= 0.1 * d_w2

神經網路啟用函式

在神經網路中，啟用函式（Activation Function）扮演著非常重要的角色，它們能夠引入非線性，使得神經網路能夠學習和代表更複雜的關係。啟用函式的選擇對於神經網路的效能和收斂速度有著重要的影響。

從技術架構視角來看，活化函式是神經網路的核心組成部分，它為模型引入了非線性，使其能夠學習複雜的模式。本文討論了數種常見的活化函式，例如 Sigmoid、ReLU 和 Tanh，並闡述了它們的特性以及如何影響神經網路的訓練。分析不同活化函式的優缺點及適用場景，例如 Sigmoid 容易出現梯度消失的問題，ReLU 則可以有效緩解這個問題，而 Tanh 函式的輸出範圍以零為中心，有助於模型的訓練。然而，選擇活化函式並非一成不變，需要根據具體的任務和資料集進行調整。展望未來，新的活化函式的研究仍然是神經網路領域的重要方向，它們可能在特定任務上展現出更優異的效能。對於深度學習的實踐者，深入理解活化函式的特性並根據實際情況選擇合適的函式，才能最大程度地發揮神經網路的潛力。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。