Diffusion 模型雜訊排程與 UNet 架構深入解析

Diffusion 模型逐步新增噪聲至影像，並學習逆轉此過程以還原原始影像，此過程仰賴雜訊排程器控制噪聲新增量。本文將深入探討雜訊排程器的數學原理與不同策略，例如線性排程和平方餘弦排程，並分析其對模型訓練的影響，同時解釋變異數儲存與變異數爆炸的概念。此外，文章還會探討輸入解析度和縮放如何影響噪聲排程，並介紹如何調整排程以適應不同解析度的影像。接著，文章將解析 UNet 架構在 Diffusion 模型中的應用，闡述其優點、工作原理和改進方法，並探討 UViT 和 RIN 等替代架構。最後，文章將介紹 Stable Diffusion 如何實作有條件生成，並結合程式碼範例和圖表說明，幫助讀者更深入地理解 Diffusion 模型的運作機制。

Mermaid 圖表：噪聲排程器的工作原理

  graph LR
    A[原始影像] -->|新增噪聲|> B[噪聲影像]
    B -->|時間步 t|> C[新增更多噪聲]
    C -->|時間步 t+1|> D[更腐化的噪聲影像]
    style A fill:#f9f,stroke:#333,stroke-width:2px
    style B fill:#f9f,stroke:#333,stroke-width:2px
    style C fill:#f9f,stroke:#333,stroke-width:2px
    style D fill:#f9f,stroke:#333,stroke-width:2px

圖表翻譯：

這個 Mermaid 圖表展示了噪聲排程器的工作原理。原始影像在新增噪聲後變成噪聲影像，然後在每個時間步中新增更多的噪聲，逐漸腐化原始影像。這個過程可以用來訓練 diffusion model，並且是生成高品質影像的關鍵部分。

時序噪聲模型的推導

在時序噪聲模型中，我們可以使用以下公式來描述噪聲新增過程：

$$x_t = (1 - \beta_t) x_{t-1} + \beta_t \epsilon$$

其中，$x_t$代表時間$t$的噪聲輸入，$x_{t-1}$代表時間$t-1$的輸入，$\beta_t$代表時間$t$的噪聲係數，$\epsilon$代表標準高斯噪聲。

我們可以進一步定義噪聲新增過程為一個分佈，其中噪聲輸入$x_t$具有均值$(1 - \beta_t) x_{t-1}$和方差$\beta_t$。這個分佈可以幫助我們更準確地模擬噪聲新增過程。

$$q(x_t | x_{t-1}) = \mathcal{N}(x_t; (1 - \beta_t) x_{t-1}, \beta_t I)$$

現在，我們已經定義了一個分佈來對條件於前一時間步的輸入進行取樣。要獲得時間$t$的噪聲輸入，我們可以從時間$t=0$開始，並反覆應用這個單步驟，這將非常低效。相反，我們可以找到一個公式來直接移動到任何時間$t$，這就是玄貓的想法。

首先，我們需要預計算噪聲時間表，這由$\beta_t$值定義。然後，我們可以定義$\alpha_t = 1 - \beta_t$，並將$\alpha_t$定義為所有時間步長到$t$的$\alpha$值的累積乘積，即$\alpha_t := \prod_{s=1}^t \alpha_s$。

使用這些工具和符號，我們可以重新定義分佈和如何在特定時間進行取樣。新的分佈$q(x_t | x_{t-1})$具有均值$\alpha_t x_{t-1}$和方差$1 - \alpha_t I$。

內容解密：

以上公式和分佈的推導過程展示瞭如何使用時序噪聲模型來模擬噪聲新增過程。透過預計算噪聲時間表和使用累積乘積來定義$\alpha_t$，我們可以高效地獲得任何時間$t$的噪聲輸入。

圖表翻譯：

  graph LR
    A[時間t=0] -->|預計算噪聲時間表|> B[時間t]
    B -->|計算α_t|> C[取樣噪聲輸入]
    C -->|計算均值和方差|> D[獲得最終結果]

這個圖表展示瞭如何從時間$t=0$開始，預計算噪聲時間表，然後計算$\alpha_t$，最終獲得時間$t$的噪聲輸入。

瞭解 Diffusion 模型中的雜訊排程

在探索 Diffusion 模型時，我們發現了一個重要的概念，即雜訊排程（Noise Schedule）。這個概念在訓練 Diffusion 模型時至關重要，因為它控制著如何將雜訊新增到原始影像中。讓我們深入瞭解一下。

雜訊排程的概念

Diffusion 模型的核心思想是逐步將雜訊新增到原始影像中，並學習如何逆轉這個過程，以還原原始影像。為了實作這個目標，我們需要一個機制來控制新增到影像中的雜訊量。這就是雜訊排程的作用。

雜訊排程的數學表示

給定一個時間步長 $t$，我們可以使用以下公式來表示新增到影像中的雜訊： [x_t = \alpha_t x_0 + (1 - \alpha_t) \epsilon] 其中，$x_t$ 是在時間步長 $t$ 新增雜訊後的影像，$x_0$ 是原始影像，$\alpha_t$ 是一個權重係數，$\epsilon$ 是一個隨機變數，代表新增到影像中的雜訊。

雜訊排程的實作

在 diffusers 函式庫中，$\alpha$ 值儲存在 scheduler.alphas_cumprod 中。透過這個值，我們可以計算出原始影像和雜訊的比例，並在不同時間步長中繪製出這些比例的變化。

繪製雜訊排程

下面是使用 DDPMScheduler 繪製出的雜訊排程圖：

plot_scheduler(
    DDPMScheduler(beta_start=0.001, beta_end=0.02, beta_schedule="linear")
)

這個圖表顯示了在不同時間步長中，原始影像和雜訊的比例變化。橙色線代表新增到影像中的雜訊量，藍色線代表原始影像的比例。

圖表翻譯：

上述程式碼使用 DDPMScheduler 來繪製雜訊排程圖。這個圖表顯示了在不同時間步長中，原始影像和雜訊的比例變化。透過這個圖表，我們可以直觀地看到雜訊排程的變化情況。

內容解密：

上述內容介紹了 Diffusion 模型中的雜訊排程概念和實作。透過瞭解雜訊排程的概念和實作，我們可以更好地理解 Diffusion 模型的工作原理，並提高模型的效能。

瞭解噪聲排程的重要性

在深度學習中，尤其是在擴散模型（Diffusion Models）的訓練過程中，噪聲排程（Noise Schedule）扮演著至關重要的角色。噪聲排程決定了如何逐步地將原始影像轉換為純粹的噪聲，這個過程對於模型的訓練效果有著直接的影響。

不同的噪聲排程策略

目前，有多種不同的噪聲排程策略被提出和使用，包括線性排程（Linear Schedule）、平方餘弦排程（Squared Cosine Schedule）等。每種策略都有其優缺點，選擇適合的噪聲排程對於模型的效能有著重要影響。

線性排程

線性排程是一種簡單直接的噪聲排程策略，它按照線性的方式增加噪聲水平。然而，如果線性排程的終點（beta_end）設定得太低，模型可能永遠不會完全看到純粹的噪聲；相反，如果終點設定得太高，模型的大部分時間都會花在處理幾乎完全的噪聲上，這可能會導致訓練效能不佳。

平方餘弦排程

平方餘弦排程是一種較為流行的選擇，因為它能夠平滑地從原始影像過渡到純粹的噪聲。這種排程方式可以提供一個更為自然的噪聲增加過程，有助於模型更好地學習影像特徵。

變異數儲存與變異數爆炸

噪聲排程可以分為變異數儲存（Variance Preserving, VP）和變異數爆炸（Variance Exploding, VE）兩類別。變異數儲存的排程試圖保持模型輸入的變異數在整個排程過程中盡可能接近1，而變異數爆炸則允許噪聲在不同程度上被新增到原始影像中，從而產生高變異數的輸入。

輸入解析度和縮放對噪聲排程的影響

最近的研究表明，輸入影像的解析度和縮放對噪聲排程有著重要影響。對於高解析度影像，由於包含了更多的冗餘資訊，即使有一些畫素被噪聲遮蔽，周圍的畫素仍然可以還原原始影像。相反，低解析度影像的一個畫素可能包含了更多重要資訊，新增相同程度的噪聲可能會導致影像更加腐敗。

調整噪聲排程以適應不同解析度的影像是一個挑戰。一些研究提出根據輸入大小調整噪聲排程，或者透過修改輸入影像的縮放來改變訊號與噪聲的比率。這些方法為訓練高解析度影像生成模型提供了新的思路。

使用 PyTorch 實作 UNet 模型

UNet 模型是一種常用的影像分割和去噪模型，特別是在醫學影像分析領域。以下是使用 PyTorch 實作 UNet 模型的基本結構：

import torch
import torch.nn as nn
import torch.nn.functional as F

class UNet(nn.Module):
    def __init__(self):
        super(UNet, self).__init__()
        self.conv1 = nn.Conv2d(1, 64, kernel_size=3)
        self.conv2 = nn.Conv2d(64, 64, kernel_size=3)
        self.pool = nn.MaxPool2d(2, 2)
        self.up = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True)
        self.tconv1 = nn.ConvTranspose2d(64, 64, kernel_size=2, stride=2)
        self.tconv2 = nn.ConvTranspose2d(64, 1, kernel_size=2, stride=2)

    def forward(self, x):
        x1 = F.relu(self.conv1(x))
        x1 = F.relu(self.conv2(x1))
        x2 = self.pool(x1)
        x3 = self.up(x2)
        x3 = torch.cat([x1, x3], dim=1)
        x4 = F.relu(self.tconv1(x3))
        x5 = self.tconv2(x4)
        return x5

UNet 模型的優點

UNet 模型有以下優點：

保留空間資訊：UNet 模型透過使用跳接（skip connection）將下采樣的特徵圖與上取樣的特徵圖相連，保留了空間資訊，從而能夠更好地保留影像的細節資訊。
提高準確度：UNet 模型透過使用多個下采樣和上取樣層，能夠學習到影像的多尺度特徵，從而提高了模型的準確度。
簡單實作：UNet 模型的結構相對簡單，易於實作和訓練。

UNet 模型的應用

UNet 模型廣泛應用於以下領域：

醫學影像分析：UNet 模型被廣泛應用於醫學影像分析領域，例如影像分割、去噪、增強等。
影像分割：UNet 模型可以用於影像分割任務，例如將影像分割成不同的區域或物件。
去噪：UNet 模型可以用於去噪任務，例如將噪聲從影像中去除。

結合 Diffusion Models

Diffusion Models 可以與 UNet 模型結合使用，以提高模型的準確度和效率。以下是結合 Diffusion Models 和 UNet 模型的基本步驟：

訓練 Diffusion Model：首先訓練一個 Diffusion Model，以學習影像的分佈。
訓練 UNet Model：然後訓練一個 UNet Model，以學習影像的特徵。
結合兩個模型：最後，結合 Diffusion Model 和 UNet Model，以提高模型的準確度和效率。

結合 Diffusion Models 和 UNet 模型可以提高模型的準確度和效率，特別是在影像分割和去噪任務中。

基本UNet架構

為了更好地理解UNet的結構，讓我們從頭開始建立一個簡單的UNet。圖4-7顯示了基本UNet的架構圖。

UNet設計

我們將設計一個適用於單通道影像（例如灰度影像）的UNet，可以用於構建MNIST資料集的diffusion模型。下取樣路徑和上取樣路徑各使用三個層。每個層由卷積運算後跟隨啟用函式（根據編碼或解碼路徑的不同）組成。跳躍連線直接連線下取樣塊到上取樣塊。

實作跳躍連線

有多種方法可以實作跳躍連線。一種方法是將下取樣塊的輸出新增到對應的上取樣塊的輸入。另一種方法是將下取樣塊的輸出與上取樣塊的輸入進行拼接。甚至可以在跳躍連線中新增額外的層。

實作簡單UNet

以下是簡單UNet的程式碼實作：

import torch
import torch.nn as nn

class BasicUNet(nn.Module):
    """基本UNet實作"""
    def __init__(self, in_channels=1, out_channels=1):
        super().__init__()
        self.down_layers = nn.ModuleList([
            # 下取樣層
        ])
        self.up_layers = nn.ModuleList([
            # 上取樣層
        ])
        self.act = nn.SiLU()  # 使用SiLU啟用函式
        self.downscale = nn.MaxPool2d(2)  # 下取樣
        self.upscale = nn.Upsample(scale_factor=2)  # 上取樣

    def forward(self, x):
        h = []
        for i, l in enumerate(self.down_layers):
            x = self.act(l(x))
            if i < 2:  # 對於所有但最後一個下取樣層
                h.append(x)  # 儲存輸出以進行跳躍連線
                x = self.downscale(x)  # 下取樣準備進行下一層
        for i, l in enumerate(self.up_layers):
            # 上取樣路徑實作
            pass

內容解密：

在上述程式碼中，我們定義了一個基本的UNet類別BasicUNet，它繼承自PyTorch的nn.Module。在__init__方法中，我們初始化了下取樣層和上取樣層，並定義了啟用函式、下取樣和上取樣操作。在forward方法中，我們實作了UNet的前向傳播過程，包括下取樣和上取樣路徑。

圖表翻譯：

以下是UNet架構的Mermaid圖表：

  graph LR
    A[輸入] --> B[下取樣層1]
    B --> C[下取樣層2]
    C --> D[下取樣層3]
    D --> E[跳躍連線]
    E --> F[上取樣層1]
    F --> G[上取樣層2]
    G --> H[上取樣層3]
    H --> I[輸出]

在這個圖表中，我們可以看到UNet的架構，包括下取樣層、跳躍連線和上取樣層。每個層之間的箭頭表示了資料的流動方向。

深入探討UNet和其替代方案

UNet架構

UNet是一種常用的神經網路架構，尤其是在影像處理任務中。其架構包括一系列的下取樣（downscaling）和上取樣（upscaling）層。下取樣層使用卷積和最大池化來減少影像的空間解析度，而上取樣層使用反捲積和上取樣來還原原始影像的解析度。

在UNet中，下取樣層的輸出會被儲存起來，並在上取樣層中使用跳躍連線（skip connection）來還原原始影像的細節。這種架構使得UNet可以學習到影像的多尺度特徵，並且能夠有效地還原影像的細節。

UNet的工作原理

當輸入影像進入UNet時，會經過以下幾個步驟：

下取樣層：影像會被卷積和最大池化，減少空間解析度。
儲存輸出：下取樣層的輸出會被儲存起來，以便在上取樣層中使用。
上取樣層：影像會被反捲積和上取樣，還原原始解析度。
跳躍連線：上取樣層的輸出會與儲存的下取樣層輸出相加，還原原始影像的細節。

改進UNet

為了使UNet能夠處理更複雜的資料，以下幾種方法可以被使用：

增加引數：可以透過增加捲積層的濾波器數量或增加網路的深度來實作。
新增正則化：可以使用批次正則化（batch normalization）來加速模型的學習和提高其可靠性。
新增dropout：可以使用dropout來防止過度適應訓練資料。
增加註意力機制：可以使用自注意力層（self-attention）來使模型能夠關注影像的不同部分。

替代架構

近年來，提出了一些替代UNet的架構，例如UViT和RIN。這些架構旨在改進UNet的效能和效率。

內容解密：

上述程式碼展示了UNet的基本架構，包括下取樣層、儲存輸出、上取樣層和跳躍連線。這種架構使得UNet可以學習到影像的多尺度特徵，並且能夠有效地還原影像的細節。透過增加引數、新增正則化、新增dropout和增加註意力機制，可以改進UNet的效能和效率。

圖表翻譯：

以下是UNet架構的Mermaid圖表：

  graph LR
    A[輸入影像] --> B[下取樣層]
    B --> C[儲存輸出]
    C --> D[上取樣層]
    D --> E[跳躍連線]
    E --> F[輸出影像]

這個圖表展示了UNet的基本架構，包括下取樣層、儲存輸出、上取樣層和跳躍連線。這種架構使得UNet可以學習到影像的多尺度特徵，並且能夠有效地還原影像的細節。

第四章：擴散模型

在本章中，我們將探討擴散模型的各種架構，包括 Transformer、UViT 和 RIN。這些架構都旨在提高擴散模型的效率和效果。

Transformer

Transformer 是一種根據自注意力機制的神經網路架構，已經被廣泛應用於自然語言處理和電腦視覺等領域。最近的研究表明，Transformer 也可以用於擴散模型的訓練。然而，Transformer 的計算和記憶需求仍然是一個挑戰，尤其是在高解析度影像的處理中。

UViT

UViT 是一種新的架構，旨在結合 UNet 和 Transformer 的優點。UViT 的核心思想是將計算資源集中在低解析度的 UNet 區塊中，以提高高解析度影像的訓練效率。同時，UViT 也引入了波レット變換（wavelet transform）來減少影像的空間解析度，而不失去重要資訊。

RIN

RIN（Recurrent Interface Networks）是一種新的架構，旨在結合迴歸神經網路（RNN）和 Transformer 的優點。RIN 的核心思想是將高解析度影像對映到一個低維度的潛在空間中，以提高計算效率。同時，RIN 也引入了迴歸機制，允許模型在每個時間步中保留資訊。

擴散模型的目標

擴散模型的目標是學習一個從噪聲影像中還原原始影像的過程。然而，實際上，模型並不直接預測原始影像，而是預測噪聲的分佈。這是因為噪聲的分佈是已知的，而原始影像的分佈是未知的。

專案時間：訓練你的擴散模型

現在是時候訓練你的擴散模型了。你需要選擇一個合適的資料集，並對其進行預處理。然後，你需要定義你的模型和訓練迴圈。你可以使用本章中的程式碼作為起點，並根據你的資料集進行修改。

內容解密：

Transformer 是一種根據自注意力機制的神經網路架構。
UViT 是一種新的架構，旨在結合 UNet 和 Transformer 的優點。
RIN 是一種新的架構，旨在結合迴歸神經網路（RNN）和 Transformer 的優點。
擴散模型的目標是學習一個從噪聲影像中還原原始影像的過程。
專案時間：訓練你的擴散模型需要選擇一個合適的資料集，並對其進行預處理。

圖表翻譯：

  graph LR
    A[原始影像] -->|新增噪聲|> B[噪聲影像]
    B -->|訓練模型|> C[還原原始影像]
    C -->|評估模型|> D[評估結果]

這個圖表展示了擴散模型的基本流程，從新增噪聲到還原原始影像，再到評估模型的效果。

Diffusion 模型：基礎與應用

Diffusion 模型是一種深度學習架構，近年來在生成式模型中引起了廣泛關注。這類別模型的基本思想是透過一系列的噪聲新增和去噪過程來生成高品質的資料樣本。以下將對 Diffusion 模型的基礎概念、工作原理以及相關的研究和應用進行介紹。

Diffusion 模型的基礎概念

Diffusion 模型的核心思想是將生成資料的過程視為一系列的噪聲新增和去噪步驟。這個過程可以被描述為一個馬爾可夫鏈，其中每一步驟都會新增一定程度的噪聲到前一步驟的結果上。透過這種方式，模型可以學習到資料分佈的結構，並生成新的樣本。

Diffusion 推理演算法

Diffusion 推理演算法是 Diffusion 模型中用於生成新樣本的關鍵組成部分。這個演算法的基本步驟包括：

初始化：從一個隨機噪聲向量開始。
去噪步驟：對當前的噪聲向量進行去噪處理，以得到更接近真實資料的結果。
重複：重複去噪步驟，直到生成出一個高品質的樣本。

雜訊排程器的角色

雜訊排程器（noise scheduler）在 Diffusion 模型中扮演著重要的角色。它負責控制在每一步驟中新增多少噪聲，這直接影響了生成樣本的品質和多樣性。透過調整雜訊排程器，可以實作對生成過程的精細控制。

訓練資料集的重要特徵

當建立 Diffusion 模型的訓練資料集時，需要關注以下幾個重要特徵：

資料品質：資料應該是高品質、多樣化的，以確保模型能夠學習到資料分佈的豐富結構。
資料平衡：資料集應該盡可能地平衡，以避免模型偏向某些特定的模式或類別。

隨機翻轉訓練影像

隨機翻轉訓練影像是增強資料的一種常見方法。透過對影像進行隨機翻轉，可以增加訓練資料的多樣性，從而提高模型的泛化能力。

評估 Diffusion 模型的生成結果

評估 Diffusion 模型的生成結果可以透過多種指標，例如：

視覺評估：人工觀察生成樣本的品質和多樣性。
指標評估：使用客觀指標，如 Inception Score 或 Fréchet Inception Distance，來評估生成樣本的品質和多樣性。

beta_end 引數對擴散過程的影響

beta_end 引數控制著擴散過程中噪聲水平的最終值。調整 beta_end 可以影響生成樣本的品質和多樣性。一般而言，較大的 beta_end 值會導致更多樣化但可能品質較低的生成結果，而較小的 beta_end 值則可能產生品質更高但多樣性較低的結果。

使用 U-Net 而非 VAE 的原因

U-Net 和 VAE 都是常用的深度學習架構，但在 Diffusion 模型中，U-Net 被更為廣泛地採用。這是因為 U-Net 能夠更好地捕捉資料的區域性和全域性結構，而 VAE 則更側重於學習資料的機率分佈。

結合 Transformer 技術

結合 Transformer 技術可以為 Diffusion 模型帶來新的可能性。例如，使用注意力機制可以幫助模型更好地捕捉資料中的長距離依賴關係。但是，這也可能增加模型的複雜度和計算成本，因此需要謹慎評估其利弊。

挑戰和未來方向

Diffusion 模型仍然是一個快速發展的領域，存在許多挑戰和未來方向。例如，如何提高模型的效率和可擴充套件性、如何應用於更多種類別的資料和任務等。同時，探索 Diffusion 模型與其他深度學習技術的結合也是一個有趣且充滿潛力的方向。

透過對 Diffusion 模型基礎概念、工作原理以及相關研究和應用的介紹，可以看出這是一個具有廣泛應用前景和挑戰性的領域。未來，Diffusion 模型很可能在生成式模型、影像和影片處理等領域發揮重要作用。

Stable Diffusion 與有條件生成

在前一章中，我們介紹了 diffusion models 和其底層的迭代精煉概念。透過這些模型，我們可以生成影像，但訓練模型的時間相當耗時，而且我們無法控制生成的影像。在這一章中，我們將探討如何從無條件生成轉變為有條件生成，特別是使用 Stable Diffusion 作為案例研究。為了達到這個目標，我們需要了解有條件模型的工作原理，並回顧一些創新的方法，這些方法使我們今天擁有根據文字的影像生成模型。

新增控制：有條件的 Diffusion Models

在嘗試根據文字描述生成影像之前，讓我們先從一個稍微簡單的任務開始：探索如何引導模型輸出朝向特定的影像型別或類別。為此，我們可以使用一種稱為有條件的方法，其中的想法是要求模型生成不僅僅是一般影像，而是一張屬於預先定義類別的影像。在這個背景下，有條件指的是在生成過程中使用標籤或提示等資訊來引導模型的輸出。

模型有條件是一個簡單但有效的概念。從第 4 章中使用的 diffusion model 開始，我們將引入一些變化。首先，與其使用蝴蝶資料集，我們將切換到具有類別的資料集。具體來說，我們將使用 Fashion MNIST，一個包含成千上萬張與 10 個類別相關聯的衣服影像資料集。然後，關鍵的是，我們將為模型提供兩個輸入：（1）影像，就像之前一樣，以及（2）每張影像所屬的類別標籤。透過這種方式，我們期望模型能夠學習影像和標籤之間的關聯，幫助它理解毛衣、靴子和其他服裝專案的獨特特徵。

注意，我們並不打算解決一個分類別問題；我們不希望模型告訴我們影像屬於哪個類別。我們仍然希望它執行與第 4 章相同的任務：生成看起來像是來自該資料集的合理影像。唯一的不同之處在於，我們給了它關於這些影像的額外資訊。為了保持一致性，我們將使用相同的損失函式和訓練策略，因為這仍然是相同的任務。

從技術架構視角來看，Diffusion 模型以其獨特的噪聲新增和去除機制在影像生成領域展現出顯著優勢。本文深入探討了從基礎的噪聲排程器工作原理、時序噪聲模型的推導，到 UNet 架構及其替代方案，以及 Stable Diffusion 中的有條件生成方法。分析顯示，UNet 架構的跳躍連線有效保留了影像細節，而噪聲排程器的設計則直接影響生成樣本的品質和多樣性。然而，高解析度影像的處理仍然存在計算資源的挑戰。展望未來，結合 Transformer 技術，例如 UViT 和 RIN 架構，有望在效率和效果上取得突破，並在高解析度影像生成、條件生成等方向持續發展。玄貓認為，Diffusion 模型代表了影像生成領域的革新方向，值得深入研究和應用。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。