Stable Diffusion XL 1.0 模型在 AI 繪圖領域備受關注,本文將引導讀者使用 AUTOMATIC1111 WebUI 介面操作 SDXL 模型,從基礎安裝到進階技巧,逐步講解如何生成高品質影像。文章涵蓋環境設定、模型下載與放置、WebUI 操作、引數調整、提示詞撰寫技巧,以及如何利用 Img2Img、影像上取樣和逆向工程 CLIP 嵌入等功能實作更精細的影像控制和生成。

相較於舊版 1.5 模型,SDXL 1.0 在影像生成品質和細節方面有所提升,但對硬體資源的需求也更高。安裝 AUTOMATIC1111 WebUI 需要先組態 Python 和 Git 環境,並下載 SDXL 1.0 的基礎模型和精煉模型(.safetensors 格式),放置於指定目錄後,即可啟動 WebUI 介面進行操作。影像生成過程涉及多個引數的調整,例如取樣方法、CFG Scale、影像尺寸、批次計數和批次大小等,不同的引陣列合會影響生成影像的風格和細節。

使用AUTOMATIC1111執行Stable Diffusion的技術

安裝與設定

要在本地執行Stable Diffusion,需要進行一些技術設定。建議查閱AUTOMATIC1111 Wiki上的最新,瞭解如何在不同硬體平臺(如NVIDIA、AMD和Apple Silicon)上安裝和執行Stable Diffusion。

安裝過程一般涉及確保Git和Python已安裝,然後下載Stable Diffusion和AUTOMATIC1111的程式碼到本地電腦。這篇文章使用Stable Diffusion的XL 1.0版本,雖然許多使用者仍使用舊版本1.5,因為它被認為更寬容,並有豐富的自定義社群訓練模型。

下載模型

可以從“Files and Versions”標籤下載SDXL v1.0的.safetensors檔案。這種格式比以前的.ckpt檔案格式更安全,因為它不會在執行時在電腦上執行程式碼。

  • 基礎模型:sd_xl_base_1.0.safetensors
  • 精煉模型:sd_xl_refiner_1.0.safetensors

這些模型需要時間來下載,因此建議立即開始下載。稍後,您需要將它們放在models/Stable-diffusion目錄中,當您安裝了AUTOMATIC1111介面後。

執行AUTOMATIC1111 Web介面

安裝完成後,透過網頁介面存取AUTOMATIC1111。例如,在Windows上,具有NVIDIA GPU的電腦可以按照以下步驟操作:

  1. 安裝Python 3.10.6(並選擇新增到PATH)和Git。
  2. 開啟命令提示符,輸入git clone https://...下載AUTOMATIC1111的程式碼。
  3. 將下載的模型移動到stable-diffusion-webui/models/Stable-diffusion目錄中。
  4. 雙擊webui-user.bat檔案,並存取介面顯示的網址。

生成影像

在網頁介面中,您可以輸入提示(在“txt2img”標籤下的頂部左側),然後單擊“Generate”按鈕來生成影像。如果您遇到錯誤或需要更新AUTOMATIC1111,請進入stable-diffusion-webui目錄並執行git pull

高階設定

  • 取樣方法:Euler、DDIM、DPM++ 2M Karras和UniPC等。每種方法都有其優缺點,需要根據具體需求選擇。
  • CFG Scale:控制模型對提示的遵循程度。常見值包括1(幾乎忽略提示)、3(允許創造力)、7(平衡)、15(嚴格遵循提示)和30(嚴格遵循)。
  • 影像大小:可透過Height和Width引數調整。
  • 批次計數:控制生成影像的數量。
  • 批次大小:控制每批次處理的影像數量,影響VRAM使用量。

提示權重

AUTOMATIC1111支援提示權重,即可對某些詞彙或短語賦予更高的重要性。使用括號()來增加權重,例如(pirate:1.5)表示對“pirate”這個詞彙增加50%的注意力。

影像後處理

  • Highres fix:使用上取樣器生成更高解析度的影像。
  • Restore faces:使用面部修復模型修復人臉缺陷。
  • Tiling:生成可平鋪的影像。

進階 Stable Diffusion 技術:高階影像生成

Stable Diffusion 是一種強大的影像生成模型,能夠根據輸入的文字提示生成高品質的影像。在這篇文章中,我們將探討一些進階的技術,包括提示編輯、Img2Img 和影像上取樣。

提示編輯

提示編輯是一種高階技術,涉及修改 diffusion 模型的層次以控制生成影像的風格和內容。透過在提示中新增特定的語法,可以實作多種創新的效果,例如在兩個概念之間切換或混合不同的風格。然而,這種技術需要大量的實驗和調整,因此被視為一種「黑暗藝術」。

Img2Img

Img2Img 是 AUTOMATIC1111 Web 使用者介面的功能之一,允許使用者提交一張影像作為輸入,並根據提示生成新的影像。這種功能可以更好地控制生成影像的風格和內容,尤其是在需要特定風格或構圖的情況下。要使用 Img2Img,需要選擇合適的引數,例如 Euler取樣、50 步取樣和較高的 CFG 縮放比例(20-30)。

影像上取樣

影像上取樣是將低解析度影像轉換為高解析度影像的過程。AUTOMATIC1111 的 Img2Img 功能支援影像上取樣,可以根據提示生成高解析度影像。要實作良好的上取樣效果,需要選擇合適的引數,例如高步數(150-200+)、適當的 CFG 縮放比例(8-15)和適當的去噪強度(0.1-0.2)。

影像評估

生成多個引陣列合或值的網格是執行 Stable Diffusion 的一個強大優勢。雖然這可能需要花費大量時間,但它是視覺化識別每個引數的作用和品質最佳點的最佳方法。AUTOMATIC1111 儲存每個生成影像的後設資料,因此可以輕鬆追蹤用於生成特定影像的設定和提示。

逆向工程CLIP嵌入模型

在Img2Img標籤中,CLIP嵌入模型(也被玄貓使用)實作了「逆向工程CLIP」按鈕(在某些版本中顯示為一個回形針),允許您從影像反向工程出提示,類別似於Midjourney的「描述」功能。當您點選按鈕並執行指令碼後,提示將出現在您的提示框中。

從使用者經驗的最佳化角度來看,AUTOMATIC1111 的 Stable Diffusion WebUI 顯著降低了使用 Stable Diffusion 的門檻,讓更多人能體驗 AI 繪圖的魅力。透過直觀的網頁介面,使用者可以輕鬆調整引數、輸入提示並生成影像,無需複雜的命令列操作。然而,進階功能如提示編輯、Img2Img 和影像上取樣等,仍需使用者投入時間和精力去實驗和理解,才能充分發揮其潛力。

深入剖析 Stable Diffusion 的技術核心,可以發現其效能高度依賴於硬體組態,特別是 GPU 的效能。雖然 SDXL 1.0 模型在影像品質上有所提升,但更高的運算需求也對硬體提出了更高的要求。此外,提示工程的技巧也至關重要,一個好的提示可以顯著提升生成影像的品質和符合度。對於初學者來說,學習如何有效地使用提示權重、語法和 CLIP 嵌入模型等進階技巧,將是提升創作效率的關鍵。

展望 Stable Diffusion 的未來發展,模型的輕量化和效能最佳化將是重要的發展方向,以降低硬體門檻並提升生成速度。同時,更為智慧的提示輔助工具和自動化引數調整功能,也有望進一步簡化創作流程,讓使用者更專注於創意發想。玄貓認為,隨著技術的持續演進和社群的蓬勃發展,Stable Diffusion 將在藝術創作、設計領域和更多應用場景中展現更大的潛力,並持續推動 AI 繪圖技術的普及化。對於想要深入探索 AI 繪圖的使用者,建議積極參與社群討論、學習進階技巧,並持續關注 Stable Diffusion 的最新發展動態。