深入解析 Stable Diffusion XL 影像修復與編輯技術

Stable Diffusion XL 模型在影像生成領域取得了顯著的成果，尤其在影像修復和編輯方面展現了強大的能力。本篇文章將深入探討 Stable Diffusion XL 的多種影像修復與編輯技術，包含使用 StableDiffusionXLInpaintPipeline 進行影像修復，利用 ControlNet 控制影像生成過程，運用 SEGA 和 LEDITS++ 進行語義引導的影像編輯，以及使用 IP-Adapter 進行影像變體和風格轉換。這些技術為影像處理提供了更精細、更強大的控制能力，讓使用者能更有效地處理和修改影像。從傳統的影像修復到根據深度學習的進階編輯技術，Stable Diffusion XL 提供了完整的工具集，讓使用者可以根據需求選擇合適的技術，實作從簡單的缺陷修復到複雜的內容創造等多種應用。

影像修復的優勢

與傳統的影像處理技術相比，根據文字的影像模型具有以下優勢：

能夠根據視覺和語義上下文生成內容，從而實作更為連貫和創新的結果。
可以處理複雜的紋理和語義理解，從而實作更好的填充效果。

實作影像修復

要實作影像修復，可以使用 StableDiffusionXLInpaintPipeline 這個管道。以下是具體的實作步驟：

載入管道：inpaint_pipeline = StableDiffusionXLInpaintPipeline.from_pretrained("stabilityai/stable-diffusion-xl-base-1.0", torch_dtype=torch.float16, variant="fp16").to(device)
載入影像和遮罩：init_image = load_image(img_url).convert("RGB").resize((1024, 1024)) 和 mask_image = load_image(mask_url).convert("RGB").resize((1024, 1024))
傳遞影像和提示到管道：image = inpaint_pipeline(prompt=prompt, image=init_image, mask_image=mask_image, num_inference_steps=50, strength=0.80, width=init_image.size[0], height=init_image.size[1])

重點引數

StableDiffusionXLInpaintPipeline 的一些重要引數包括：

prompt：用於描述要填充的內容的提示。
image：原始影像。
mask_image：遮罩影像，用於指示需要填充的區域。
num_inference_steps：推理步數，控制生成影像的細節程度。
strength：強度引數，控制填充效果的強度。
width 和 height：輸出影像的寬度和高度。

圖表翻譯：

  flowchart TD
    A[載入管道] --> B[載入影像和遮罩]
    B --> C[傳遞影像和提示到管道]
    C --> D[生成填充影像]
    D --> E[輸出結果]

內容解密：

上述程式碼實作了根據文字的影像模型的影像修復功能。透過調整引數，可以控制填充效果的強度和細節程度。這種技術可以廣泛應用於影像處理和生成領域。

圖片修復與編輯技術

圖片修復是一種利用人工智慧技術來修復損壞或缺失的圖片內容。這種技術可以用於還原受損的圖片、移除不想要的物體或是填充缺失的區域。

圖片修復的基本概念

圖片修復需要兩個基本元素：原始圖片（init_image）和遮罩圖片（mask_image）。原始圖片是需要被修復的圖片，而遮罩圖片是一個二元色的圖片，黑色表示需要保持不變的區域，白色表示需要被替換的區域。

圖片修復的強度控制

圖片修復的強度可以透過調整遮罩圖片的強度來控制。強度的值可以在0到1之間，0表示不新增任何噪聲，1表示完全新增噪聲。通常，強度的值會設定在0.6到0.8之間，以達到平滑融合的效果。

根據文字的圖片編輯

根據文字的圖片編輯是一種利用文字提示來控制圖片生成的技術。這種技術可以用於修改圖片的內容、結構和風格。

文字提示的加權和合併

文字提示的加權和合併是一種控制圖片生成的技術。這種技術可以用於調整每個詞彙的重要性、合併多個提示和修改生成的圖片。

Prompt Weighting and Merging

Prompt Weighting and Merging是一種控制圖片生成的技術。這種技術可以用於調整每個詞彙的重要性、合併多個提示和修改生成的圖片。

Compel函式庫

Compel函式庫是一種實作文字提示加權和合併的函式庫。這種函式庫可以用於簡化文字提示的加權和合併過程。

程式碼實作

以下是使用Compel函式庫實作文字提示加權和合併的程式碼：

from diffusers import DiffusionPipeline
from compel import Compel, ReturnedEmbeddingsType

# 載入預訓練模型
pipeline = DiffusionPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
    variant="fp16",
).to(device)

# 初始化Compel類別
compel = Compel(
    tokenizer=[pipeline.tokenizer, pipeline.tokenizer_2],
    text_encoder=[pipeline.text_encoder, pipeline.text_encoder_2],
    returned_embeddings_type=ReturnedEmbeddingsType.PENULTIMATE_HIDDEN_STATES_NON_NORMALIZED,
    requires_pooled=[False, True],
)

# 準備提示
prompts = []
prompts.append("a humanoid robot eating pasta")

# 生成圖片
image = pipeline.generate(
    prompt=prompts[0],
    compel=compel,
).images[0]

內容解密：

上述程式碼使用Compel函式庫實作文字提示加權和合併。首先，載入預訓練模型和初始化Compel類別。然後，準備提示和生成圖片。

圖表翻譯：

  graph LR
    A[原始圖片] --> B[遮罩圖片]
    B --> C[圖片修復]
    C --> D[根據文字的圖片編輯]
    D --> E[文字提示加權和合併]
    E --> F[生成圖片]

上述圖表展示了圖片修復和根據文字的圖片編輯的流程。原始圖片和遮罩圖片作為輸入，經過圖片修復和根據文字的圖片編輯，最終生成圖片。

人工智慧影像編輯技術

人工智慧影像編輯技術近年來取得了重大突破，尤其是在影像生成和編輯方面。其中，Diffusion模型是一種重要的影像生成模型，它透過學習影像的噪聲過程來生成高品質的影像。

Prompt Weighting

在Diffusion模型中，Prompt Weighting是一種用於控制影像生成的技術。它允許使用者透過調整prompt的權重來控制生成影像的特徵。例如，使用者可以使用 “+” 和 “-” 符號來調整prompt的權重，從而控制生成影像的特徵。

Semantic Guidance

另一個重要的影像編輯技術是Semantic Guidance（SEGA）。SEGA是一種根據文字嵌入的影像編輯方法，它可以根據文字描述對影像進行精確的編輯。SEGA透過計算文字嵌入相對於潛在空間的梯度來引導影像生成或修改，從而實作語義方向的修改。

實作SEGA

要實作SEGA，需要使用SemanticStableDiffusionPipeline類別，並從預訓練模型中載入模型引數。然後，需要建立一個生成器，並設定隨機種子以確保生成結果的一致性。

from diffusers import SemanticStableDiffusionPipeline
semantic_pipeline = SemanticStableDiffusionPipeline.from_pretrained(
    "CompVis/stable-diffusion-v1-4", torch_dtype=torch.float16, variant="fp16"
).to(device)
generator = torch.Generator(device=device).manual_seed(100)

影像編輯

使用SEGA進行影像編輯時，需要提供一個文字描述，並根據這個描述對影像進行修改。SEGA會根據文字嵌入計算梯度，並引導影像生成或修改以實作語義方向的修改。

image = semantic_pipeline(
    prompt="一隻機器人正在吃義大利麵",
    num_inference_steps=30,
    generator=generator
).images[0]

圖片編輯的強大工具：SEGA

SEGA（Semantically Guided Editing）是一種強大的圖片編輯工具，允許使用者透過文字提示來編輯圖片。它可以實作多種編輯功能，例如新增物體、更改顏色、修改形狀等。

SEGA 的重要引數

SEGA 中有一些重要的引數，控制著編輯的效果。這些引數包括：

edit_guidance_scale：控制模型對編輯的遵循程度。越高的值，模型就越嚴格地遵循編輯提示。
edit_warmup_steps：控制模型在開始編輯之前的噪聲步數。越高的值，模型就越穩定地進行編輯。
edit_threshold：控制原始圖片中保留的畫素百分比。越高的值，模型就越保留原始圖片的細節。
reverse_editing_direction：控制編輯的方向。如果設定為 False，模型就會新增新的內容；如果設定為 True，模型就會移除現有的內容。

實際應用

下面是一個使用 SEGA 進行圖片編輯的例子：

generator = torch.Generator(device=device).manual_seed(100)

out = semantic_pipeline(
    prompt="一張男人臉部的照片",
    negative_prompt="低品質、變形",
    editing_prompt="微笑、笑",
    edit_guidance_scale=4,
    edit_warmup_steps=10,
    edit_threshold=0.99,
    edit_momentum_scale=0.3,
    edit_mom_beta=0.6,
    reverse_editing_direction=False,
    generator=generator,
)

out.images[0]

這個例子中，我們使用 SEGA 將一張男人臉部的照片編輯成帶有微笑的照片。編輯提示是 “微笑、笑”，模型會根據這個提示新增微笑到原始圖片中。

多重編輯

SEGA 也支援多重編輯，即同時進行多個編輯操作。下面是一個例子：

generator = torch.Generator(device=device).manual_seed(100)

out = semantic_pipeline(
    prompt="一張男人臉部的照片",
    negative_prompt="低品質、變形",
    editing_prompt=["戴眼鏡", "穿西裝"],
    edit_guidance_scale=[4, 4],
    edit_warmup_steps=[10, 10],
    edit_threshold=[0.99, 0.99],
    edit_momentum_scale=[0.3, 0.3],
    edit_mom_beta=[0.6, 0.6],
    reverse_editing_direction=False,
    generator=generator,
)

out.images[0]

這個例子中，我們使用 SEGA 將一張男人臉部的照片編輯成戴眼鏡和穿西裝的照片。編輯提示是 [“戴眼鏡”, “穿西裝”]，模型會根據這些提示同時新增眼鏡和西裝到原始圖片中。

圖表翻譯：

  flowchart TD
    A[原始圖片] --> B[SEGA 編輯]
    B --> C[新增微笑]
    B --> D[新增眼鏡]
    B --> E[新增西裝]
    C --> F[輸出圖片]
    D --> F
    E --> F

這個圖表展示了 SEGA 的工作流程。原始圖片作為輸入，SEGA 根據編輯提示進行編輯，然後輸出最終的圖片。

進階圖片編輯技術：LEDITS++

LEDITS++是一種結合了SEGA和逆向技術（inversion）的圖片編輯方法。它可以讓使用者以更細膩的方式編輯真實世界的圖片。

LEDITS++工作原理

LEDITS++的工作流程如下：

將要編輯的圖片進行逆向轉換（inversion），使其變成模型可以操作的格式。
決定編輯列表和編輯方向，使用editing_prompt和reverse_editing_direction引數。
應用與SEGA相同的edit_guidance_scale和edit_threshold引數進行編輯。

使用LEDITS++進行圖片編輯

以下是使用LEDITS++進行圖片編輯的示例：

from diffusers import LEditsPPPipelineStableDiffusion

# 載入模型
pipe = LEditsPPPipelineStableDiffusion.from_pretrained(
    "stable-diffusion-v1-5/stable-diffusion-v1-5",
    torch_dtype=torch.float16,
    variant="fp16"
)

# 將模型移到GPU
pipe.to(device)

# 載入圖片
image = load_image(SampleURL.ManInGlasses).convert("RGB")

# 進行圖片編輯
out = pipe(
    prompt="a photo of the face of a man",
    negative_prompt="low quality, deformed",
    editing_prompt=["smiling, smile", "glasses, wearing glasses"],
    reverse_editing_direction=[False, False],
    edit_warmup_steps=[10, 10],
    edit_guidance_scale=[6, 6],
    edit_threshold=[0.99, 0.99],
    edit_momentum_scale=0.3,
    edit_mom_beta=0.6,
    generator=generator,
)

# 顯示編輯後的圖片
out.images[0]

LEDITS++優點

LEDITS++結合了SEGA和逆向技術的優點，可以提供更細膩的圖片編輯功能。它可以讓使用者以更高的精確度控制編輯結果，並且可以應用於真實世界的圖片編輯任務。

圖表翻譯：

  flowchart TD
    A[載入模型] --> B[將模型移到GPU]
    B --> C[載入圖片]
    C --> D[進行圖片編輯]
    D --> E[顯示編輯後的圖片]

內容解密：

上述程式碼示範瞭如何使用LEDITS++進行圖片編輯。首先，載入模型並將其移到GPU。然後，載入要編輯的圖片。接下來，進行圖片編輯，使用editing_prompt和reverse_editing_direction引數控制編輯結果。最後，顯示編輯後的圖片。

影像編輯技術

影像編輯是一種將原始影像轉換為目標影像的過程，涉及到影像處理和修改。近年來，人工智慧和深度學習技術的發展使得影像編輯技術得到了迅速的進步。

根據Diffusion模型的影像編輯

Diffusion模型是一種生成式模型，透過學習影像的分佈來生成新影像。透過對Diffusion模型進行修改和擴充套件，可以實作影像編輯功能。例如，Stable Diffusion模型可以透過新增額外的輸入通道和修改文字條件機制來實作影像編輯。

InstructPix2Pix模型

InstructPix2Pix模型是一種根據Diffusion模型的影像編輯模型，透過對原始影像和編輯指令進行訓練，可以生成高品質的編輯後影像。CosXL Edit模型是InstructPix2Pix模型的一種變體，根據Stable Diffusion XL模型進行訓練，可以實作高品質的影像編輯。

影像編輯過程

影像編輯過程涉及到以下步驟：

輸入原始影像和編輯指令。
對原始影像進行預處理和編輯指令的分析。
使用Diffusion模型生成編輯後影像。
對生成的影像進行後處理和最佳化。

實作影像編輯

要實作影像編輯功能，可以使用以下程式碼：

from diffusers import (
    EDMEulerScheduler,
    StableDiffusionXLInstructPix2PixPipeline,
)

from huggingface_hub import hf_hub_download

# 下載CosXL Edit模型
edit_file = hf_hub_download(
    repo_id="stabilityai/cosxl", filename="cosxl_edit.safetensors"
)

# 載入CosXL Edit模型
pipe_edit = StableDiffusionXLInstructPix2PixPipeline.from_single_file(
    edit_file, num_in_channels=8, is_cosxl_edit=True, torch_dtype=torch.float16
)

# 輸入原始影像和編輯指令
image =...
editing_prompt = ["glasses"]

# 執行影像編輯
edited_image = pipe_edit(
    editing_prompt=editing_prompt,
    edit_guidance_scale=[1.5],
    edit_threshold=[0.95],
).images[0]

# 顯示編輯後影像
image_grid([image, edited_image], rows=1, cols=2)

圖表翻譯：

  graph LR
    A[原始影像] --> B[預處理]
    B --> C[編輯指令分析]
    C --> D[Diffusion模型]
    D --> E[生成編輯後影像]
    E --> F[後處理和最佳化]
    F --> G[輸出編輯後影像]

本文介紹了根據Diffusion模型的影像編輯技術，包括InstructPix2Pix模型和CosXL Edit模型。並給出了實作影像編輯的程式碼範例和Mermaid圖表。

影像編輯與控制

影像編輯是一個重要的應用領域，尤其是在創意產業中。近年來，根據深度學習的影像編輯技術取得了巨大的進步。其中，ControlNet是一個由玄貓開發的模型，用於控制影像擴散模型的生成過程。

ControlNet簡介

ControlNet是一種能夠根據不同的條件控制影像生成的模型。它可以接收多種型別的輸入，包括Canny邊緣、人體姿勢（OpenPose）等，並根據這些條件生成對應的影像。ControlNet的訓練過程中，會建立一個可訓練的原始模型副本，並將新的條件注入到這個副本中。這樣做可以保留原始模型的能力，即使用相對較少的樣本進行訓練。

ControlNet的應用

ControlNet的多功能性和高效性使其成為影像生成和影像編輯任務中的一個強大工具。透過玄貓的能力，ControlNet開闊了創意和實際應用的新可能性。例如，在時尚設計中，可以使用ControlNet來視覺化不同身體姿勢上的服裝；在建築中，可以根據粗略的草圖生成建築設計；在電影前期製作中，可以快速從簡單的線繪中建立故事板。

使用ControlNet

要使用ControlNet，需要先載入主模型和控制網路模型。然後，可以使用輔助函式庫controlnet_aux來預處理輸入影像，以滿足官方預訓練ControlNet模型的條件格式。下面是一個簡單的示例：

from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline
from controlnet_aux import MidasDetector

# 載入控制網路模型和主模型
controlnet = ControlNetModel.from_pretrained(
    "diffusers/controlnet-depth-sdxl-1.0",
    torch_dtype=torch.float16,
    variant="fp16",
)
controlnet_pipeline = StableDiffusionXLControlNetPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    controlnet=controlnet,
    torch_dtype=torch.float16,
    variant="fp16",
)

# 預處理輸入影像
original_image = load_image(SampleURL.WomanSpeaking)
original_image = original_image.resize((1024, 1024))

# 使用MidasDetector進行預處理
detector = MidasDetector()
conditioned_image = detector(original_image)

# 進行影像生成
generated_image = controlnet_pipeline(
    prompt="make it a cloudy day",
    image=conditioned_image,
    num_inference_steps=20
).images[0]

# 顯示結果
image_grid([original_image, generated_image], rows=1, cols=2)

內容解密：

上述程式碼示例瞭如何使用ControlNet進行影像編輯。首先，載入控制網路模型和主模型。然後，預處理輸入影像以滿足ControlNet模型的條件格式。在這個例子中，使用MidasDetector進行預處理，以估計影像的深度。最後，使用控制網路管道進行影像生成，並顯示結果。

圖表翻譯：

  flowchart TD
    A[載入模型] --> B[預處理輸入影像]
    B --> C[進行影像生成]
    C --> D[顯示結果]

上述Mermaid圖表描述了使用ControlNet進行影像編輯的流程。首先，載入控制網路模型和主模型。然後，預處理輸入影像以滿足ControlNet模型的條件格式。接著，使用控制網路管道進行影像生成。最後，顯示結果。

影像提示與影像變體

文字提示很棒，但有時候我們需要更多東西來表達我們對模型的意圖。使用影像提示diffusion模型可以讓我們擴大輸入範圍到視覺領域。

影像變體

為了讓我們的創造力更加豐富，有時候我們需要看一些相似的但不同的東西。這就是影像變體的目的：取一個給定的影像並重新解釋它，提供一個熟悉但不同的影像生成。讓我們探索兩種方法：使用CLIP影像嵌入和IP-Adapter。

使用CLIP影像嵌入

如您在第5章所學，Stable Diffusion使用CLIP作為其文字編碼器。除了文字編碼器，CLIP還可以用來生成影像嵌入。

一些diffusion模型是在這樣的方式下訓練的：它們可以使用影像嵌入作為輸入來生成新的影像變體。這是Karlo和Kandinsky的案例。對於Stable Diffusion，這不會直接運作。然而，它可以透過微調來實作。Stable Diffusion Image Variations是一個微調過的Stable Diffusion v1-5模型，它接受CLIP影像嵌入作為其輸入。您可以在Hugging Face嘗試其演示。

使用IP-Adapter

另一種不需要微調模型的方法是使用預先訓練的IP-Adapters（影像提示介面卡）。這些介面卡允許使用影像進行提示，允許影像變體和其他許多影像提示的使用案例，例如風格轉換、主體身份保留和結構控制。

如圖8-6所示，IP-Adapter由兩個元件組成：一個從影像中提取特徵的編碼器和分離的跨注意力模組，它們附加到預先訓練的Stable Diffusion UNet。

  graph LR
    A[影像] -->|提取特徵|> B[編碼器]
    B --> C[分離的跨注意力模組]
    C --> D[預先訓練的Stable Diffusion UNet]
    D --> E[影像生成]

圖表翻譯：

此圖表描述了IP-Adapter的架構，展示瞭如何從影像中提取特徵並將其附加到預先訓練的Stable Diffusion UNet以生成新的影像。

使用IP-Adapter進行影像變體

要使用IP-Adapter進行影像變體，我們可以提供參考影像和一個空的提示，然後生成結果如下：

from diffusers import StableDiffusionXLPipeline

# 載入基礎管道
sdxl_base_pipeline = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16,
    variant="fp16",
)

# 載入IP-Adapter
sdxl_base_pipeline.load_ip_adapter(
    "h94/IP-Adapter", subfolder="sdxl_models", weight_name="ip-adapter_sdxl.bin"
)

# 設定IP-Adapter比例
sdxl_base_pipeline.set_ip_adapter_scale(0.5)

# 進行影像變體
image = sdxl_base_pipeline(
    "",
    image=reference_image,
).images[0]

內容解密：

此程式碼載入基礎管道和IP-Adapter，然後設定IP-Adapter比例為0.5。接著，它使用參考影像和一個空的提示進行影像變體，生成新的影像。這個過程展示瞭如何使用IP-Adapter進行影像變體和風格轉換。

影像提示與IP-Adapter的應用

在前面的章節中，我們探討瞭如何使用IP-Adapter來生成影像變體。然而，IP-Adapter的功能遠不止於此。它可以將影像用作提示的一部分，從而實作風格轉換和其他技術。

從技術架構視角來看，本文深入探討了多種影像編輯技術，涵蓋了從基礎的影像修復到進階的ControlNet和IP-Adapter等多種方法。分析比較了不同技術的優劣和適用場景，例如StableDiffusionXLInpaintPipeline適用於基本的影像修復，而SEGA和LEDITS++則更適合根據語義的影像編輯。同時，也指出了這些技術的限制，例如Stable Diffusion需要微調才能使用影像嵌入。ControlNet雖然功能強大，但需要特定的預處理步驟。IP-Adapter則在風格轉換和影像變體方面表現出色。展望未來，隨著深度學習技術的持續發展，預計影像編輯技術將會更加精細化和智慧化，湧現更多融合多種技術的創新解決方案，例如結合ControlNet和IP-Adapter，實作更精確的影像控制和風格轉換。玄貓認為，深入理解這些技術的原理和應用，將有助於開發者更好地應對日益增長的影像編輯需求，並在影像生成和編輯領域創造更多可能性。

玄貓

技術愛好者，專注於分享程式開發、雲端技術與 AI 應用的心得體會。