← M05 生成式 AI M05 生成式 AI

M05.06｜圖像生成：Diffusion Model、DALL-E、Midjourney

從一堆雜訊中慢慢浮現一幅畫 — 這就是擴散模型的魔法

L1-AI基礎知識-圖像生成技術 L2-AI技術應用-擴散模型

🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 🤲 啟動體驗式學習

📋

本講學習重點

擴散模型「加雜訊再去雜訊」的核心邏輯是什麼？

潛在擴散模型（LDM）和標準擴散模型的差異是什麼？

DALL-E、Midjourney、Stable Diffusion 三者有什麼本質差異？

文生圖的 Prompt 為什麼需要刻意設計？

AI 生成圖像的著作權歸屬問題目前是什麼狀態？

擴散模型的核心邏輯（兩階段）： - 前向過程：把乾淨圖片逐步加入高斯雜訊，直到完全變成純雜訊（約 1000 步） - 反向過程：訓練神經網路學習「每一步應該如何去除一點雜訊」 - 推理時：從純雜訊出發，反覆調用神經網路去雜訊，1000 步後得到乾淨圖片 - 文字引導：透過 CLIP 或 T5 編碼器將文字嵌入，在去雜訊的每一步中「導引」方向三大主流平台比較： - DALL-E 3（OpenAI）：與 GPT-4 深度整合，理解複雜語義最佳，提示遵循度高 - Midjourney：美學風格最強，預設出圖品質高，但閉源、只能透過 Discord 使用 - Stable Diffusion（Stability AI）：開源，可本地部署，有龐大的微調模型社群潛在擴散模型（LDM）的關鍵創新： - 把擴散過程從像素空間移到潛在空間（比像素空間小 8-16 倍） - 大幅降低計算成本，讓高解析度生成成為可能 - Stable Diffusion 就是 LDM 的實際應用著作權現況： - 台灣：AI 生成物目前無著作權保護（著作人須為自然人） - 美國 USCO：純 AI 生成不受保護，但人類有顯著創作貢獻的部分可受保護 - 爭議：訓練資料是否侵犯原作者著作權（Getty Images vs Stability AI 訴訟進行中）

📌 擴散模型透過「先加雜訊、再學習去雜訊」的兩階段訓練，實現了史上最高品質的圖像生成。DALL-E 3 強調語義理解， Midjourney 強調美學風格，Stable Diffusion 強調開源可控。文生圖 Prompt 需要精心設計才能獲得理想結果。 AI 生成圖像的著作權與訓練資料合法性問題仍是全球爭議焦點，商業應用時必須謹慎處理。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

擴散模型（Diffusion Model）是目前主流的 AI 圖像生成技術——它先把圖片反覆加雜訊直到變成純雜訊，再訓練 AI 學習「如何一步步把雜訊還原成圖片」，推理時只需要從一堆隨機雜訊出發，就能生成任何文字描述的圖像。

白話解說

擴散模型的直覺：雕刻家的逆向思維

想像一個雕刻家在大理石上工作，他把一塊完美的雕像逐漸磨碎，最後變成一堆細沙——這是「破壞」的過程。擴散模型反過來問：如果我們對「破壞過程」的每一個步驟都瞭若指掌，是不是就能學會「如何從細沙重新雕出雕像」？

這正是擴散模型的核心邏輯。前向過程（Forward Process）：取一張真實的訓練圖片，逐步向它加入微量的高斯雜訊，每一步讓圖片變得稍微模糊一點，重複約 1000 步，最終圖片完全淹沒在隨機雜訊中，變成一張看起來像電視雪花的畫面。反向過程（Reverse Process）：訓練一個神經網路（通常是 U-Net 架構），學習「如何從第 t 步的雜訊圖，預測出第 t-1 步應該是什麼樣子」——也就是說，學習每一個去雜訊步驟的逆操作。訓練完成後，這個網路已經隱含了「什麼樣的圖像結構是合理的」的全部知識。

推理時，我們從一張完全隨機的雜訊圖出發，反覆調用這個神經網路進行去雜訊，一步一步讓圖像逐漸清晰成形。整個過程就像是從混沌中「召喚」出一幅畫，每次生成的結果都因初始雜訊不同而獨一無二。這個框架比 GAN 穩定得多，因為它的訓練目標明確（預測雜訊量），沒有 GAN 的「生成器與判別器互相博弈失衡」問題。

潛在擴散模型：讓高解析度生成成為可能

標準擴散模型有一個致命的效率問題：它在像素空間工作。一張 512×512 的圖片有 786,432 個像素，每一步去雜訊都要對這麼多像素做計算，1000 步下來計算成本極為驚人，在消費級 GPU 上完全不可行。

潛在擴散模型（Latent Diffusion Model，LDM） 是 2022 年 CompVis 實驗室提出的關鍵創新，Stable Diffusion 就是 LDM 的實現。它的解法是引入一個變分自編碼器（VAE）：先把圖片壓縮到「潛在空間」（通常是原圖的 1/8 大小），在這個小得多的潛在空間裡做擴散過程，最後再用 VAE 的解碼器把潛在向量還原成高解析度圖片。這讓計算量減少了 64 倍以上，使得在一般消費級顯示卡（如 RTX 3080）上也能在幾秒內生成高品質圖像成為現實。

同年，OpenAI 的 DALL-E 2 和 Stability AI 的 Stable Diffusion 幾乎同時發布，加上 Midjourney 的崛起，2022 年成為 AI 圖像生成的元年。這三個系統都使用了 CLIP（Contrastive Language-Image Pretraining）作為理解文字的橋梁——CLIP 在大量圖文配對資料上訓練，能把文字描述和圖像內容對應到同一個語意空間，從而讓文字「引導」去雜訊的方向。

三大平台：各有千秋的圖像生成工具

目前商業上最主流的三個文生圖平台各自有鮮明的定位和技術特色：

DALL-E 3（OpenAI） 最大的優勢是語義理解能力。它直接整合到 ChatGPT，用戶用自然語言描述需求，ChatGPT 會自動優化提示詞再送給 DALL-E 3 生成。DALL-E 3 對文字細節的遵循度是三者中最高的，例如「在一張咖啡桌上放一個紅色咖啡杯，旁邊有一本打開的書，書頁上寫著 Hello World」，DALL-E 3 通常能準確呈現這些細節。其主要限制是閉源、按量計費，且生成風格相對「乾淨學術」。

Midjourney 是目前美學品質評價最高的平台。它不開源、只能透過 Discord 介面使用，底層技術刻意不透明，但它的預設出圖風格（精緻光影、藝術質感、高細節度）是許多設計師和藝術家的首選。Midjourney v6 後對文字提示的理解能力也大幅提升，但它仍然在「美學風格的把控」上表現最佳。

Stable Diffusion（Stability AI） 的核心優勢是開源與可控性。它可以在本地部署、無需支付 API 費用、支援自訂微調模型（LoRA）、支援 ControlNet（用草圖或姿態圖精確控制生成構圖）、支援 InPainting（局部修改）和 img2img（圖生圖）。龐大的社群在 Civitai 等平台上分享了數以萬計的微調模型，涵蓋各種藝術風格、人物風格、建築風格。這讓 Stable Diffusion 成為需要高度客製化控制的專業工作流的首選。

Prompt 工程：文生圖的隱藏技能

很多人第一次使用文生圖工具時都很失望——「我說想要一個夕陽下的沙灘，為什麼畫出來的看起來這麼普通？」原因在於，文生圖模型訓練時看過的圖文配對，通常是用非常具體的攝影術語、美術術語、風格術語標注的，而不是日常語言。

要得到高品質的結果，有效的 Prompt 通常包含幾個層次：主體描述（什麼、誰、在做什麼）、風格修飾（油畫、水彩、攝影、賽博龐克）、技術參數（8K 超高解析度、光線方向、景深、鏡頭焦距）、品質詞彙（masterpiece、highly detailed、award-winning photography）、藝術家風格引用（in the style of Monet、Studio Ghibli style）。Midjourney 還有 --ar（長寬比）、--v（版本）、--stylize（風格化程度）等參數；Stable Diffusion 則有「負面提示詞」（Negative Prompt，用來排除不想出現的元素）。

這催生了一個新的職業：Prompt 工程師——專門為特定業務場景設計、測試、優化圖像生成提示詞，形成可重複使用的提示詞範本，在電商、遊戲、廣告等行業有實際需求。

著作權迷霧：AI 圖像的法律灰色地帶

AI 圖像生成帶來了兩層著作權爭議，目前在全球範圍內都尚未有明確定論。

第一層：訓練資料問題。擴散模型是在數十億張從網路爬取的圖片上訓練的，其中包含大量有著作權的攝影作品和藝術作品，且訓練時通常未取得授權、未支付報酬。Getty Images 已對 Stability AI 提起訴訟，認為其侵犯了 Getty 的攝影著作權。藝術家社群的抗議更是持續不斷——有人開發了 Glaze 工具，讓藝術家在發布作品前加入微小的對抗性擾動，使圖像在人眼看來完全正常，但 AI 模型無法從中學到正確的風格特徵。

第二層：生成物著作權歸屬。由人類下提示詞、AI 生成的圖像，著作權究竟屬於誰？台灣《著作權法》明文規定「著作人」須為自然人（個人）或法人（公司），AI 本身不能成為著作人，而「使用 AI 工具」的人是否能主張著作權，目前著作權主管機關尚未有明確解釋。美國著作權局（USCO）在 2023-2024 年的系列裁決中確立：純 AI 生成的圖像不受著作權保護；但若人類在選擇、配置、調整上有「足夠的創意貢獻」（如精心設計的提示詞序列、後製整合），該部分可能受保護。

應用場景

應用領域	具體使用方式	推薦平台	主要考量
電商產品圖	快速生成多種角度和場景的產品展示圖，無需實體拍攝	Stable Diffusion（本地部署，成本低）	著作權清晰度、商業使用授權
廣告素材設計	生成廣告視覺草稿，讓客戶快速看到視覺方向，再由設計師精修	Midjourney（美學品質高）	品牌一致性、風格可控性
遊戲概念藝術	快速生成大量場景概念圖、角色設計草案，加速前期設計迭代	Stable Diffusion + ControlNet	風格一致性、構圖可控
新聞媒體配圖	為文章快速生成示意圖，標注「AI 生成圖片」	DALL-E 3（語義準確）	避免誤導讀者、清晰標示
室內設計方案	上傳平面圖，生成多種風格的室內效果圖供客戶選擇	Stable Diffusion + img2img	圖像保真度、風格控制
教育輔助教材	為課程生成說明性插圖、歷史場景復原圖	DALL-E 3（語義精確）	內容準確性、文化敏感性
個人化禮品	生成客製化圖案用於印製商品（馬克杯、T恤）	各平台均可	商業使用授權需確認

常見誤區

誤區一：Prompt 越詳細，生成效果一定越好

很多初學者以為提示詞越長越詳細越好，結果卻發現塞滿了描述的提示詞反而讓模型「不知所措」，生成效果雜亂無章。實際上，文生圖模型的 Prompt 有「注意力競爭」的問題——每個詞都在爭奪模型的注意力資源，當詞彙過多時，後面的描述會被稀釋甚至忽略。有效的做法是：把最重要的元素放在提示詞前面（模型對前段的注意力更強），核心主體描述清楚但不過度，風格和技術詞彙精選幾個最關鍵的，寧可多次迭代調整，也不要一次塞入所有想法。Midjourney 有 :: 語法可以給特定詞彙加權，Stable Diffusion 的 AUTOMATIC1111 介面支援 (詞彙:1.5) 格式調整各部分的權重。

誤區二：AI 生成的圖像可以直接用於任何商業用途

三大平台的商業使用授權各不相同。Midjourney 免費版不允許商業使用，Pro 版才允許商業使用（且對年收入超過 100 萬美元的公司有額外限制）。Stable Diffusion 的基礎模型採用 CreativeML Open RAIL-M 授權，允許商業使用但禁止某些有害應用，但使用社群微調模型時，還需要查看各個模型作者的個別授權聲明。DALL-E 3 透過 API 使用時，OpenAI 的條款允許商業使用生成的圖像。此外，所有 AI 生成圖像在台灣法律下目前不受著作權保護，這既是優點（無需擔心 AI 版權）也是風險（他人可自由使用你的 AI 圖像）。在啟動大規模商業應用前，務必仔細閱讀各平台的最新服務條款。

誤區三：擴散模型生成的圖像一定包含藝術家的「原作風格」

雖然在提示詞中加入「in the style of 某藝術家」確實能讓生成結果帶有該藝術家的視覺風格，但擴散模型並未「複製」或「儲存」任何原始圖像——它儲存的是從數十億圖像中學到的統計規律，不是圖像本身。每次生成都是從雜訊中全新生成，不是拼貼或抄襲原有圖像。然而，這並不代表「風格引用在法律上完全沒有問題」——這是另一個層面的爭議（藝術家是否有權主張風格被模仿）。從技術層面說，模型不儲存原圖；從法律和倫理層面說，是否應尊重藝術家對風格使用的意願，是目前業界正在辯論的議題。

小練習

練習一：分析擴散模型的生成步驟

以下是一個描述，請依序排列擴散模型在訓練階段和推理階段的步驟，並說明「文字提示詞」在哪個環節發揮作用：

訓練階段的操作包含（順序待定）：

(A) 訓練神經網路預測每一步加入的雜訊量
(B) 在乾淨圖片上逐步加入高斯雜訊，共約 1000 步
(C) 用帶有標題的圖文資料集（如 LAION-5B）作為訓練素材

推理階段的操作包含（順序待定）：

(D) 把文字提示詞用 CLIP 或 T5 編碼器轉成向量
(E) 生成一張完全隨機的雜訊圖作為起點
(F) 反覆調用神經網路，每次去除一點雜訊，共約 50-100 步
(G) 輸出最終的乾淨圖像

點擊查看參考答案

練習一：擴散模型生成步驟分析

**訓練階段正確順序：C → B → A** 1. **(C) 準備圖文資料集**：蒐集數十億張帶有文字描述的圖片（如 LAION-5B 資料集），這是訓練的原始素材。 2. **(B) 前向過程（加雜訊）**：對每一張訓練圖片，隨機選取一個時間步 t（1 到 1000 之間），直接用數學公式計算「加了 t 步雜訊後的圖片長什麼樣」（不需要真的跑 1000 步，可以一步直接計算），得到一張帶雜訊的圖片。 3. **(A) 訓練去雜訊網路**：把帶雜訊的圖片輸入 U-Net，讓它預測「這一步加入了多少雜訊」，用預測的雜訊與實際加入的雜訊計算損失，反向傳播更新權重。重複數億次。 **推理階段正確順序：D → E → F → G** 1. **(D) 文字編碼**：把用戶輸入的提示詞（如「一隻在夕陽下奔跑的金色拉布拉多犬，攝影風格，淺景深」）用 CLIP 或 T5 編碼器轉成一個高維向量，這個向量在去雜訊的每一步都會被注入（透過 Cross-Attention 機制），引導圖像往對應方向生成。 2. **(E) 初始化隨機雜訊**：從標準正態分布取樣一張純雜訊圖作為起點——每次取樣不同，所以每次生成結果都不一樣。 3. **(F) 反向去雜訊循環**：反覆調用訓練好的 U-Net（實際推理時通常用 DDIM 等加速採樣方法，只需約 20-50 步而非 1000 步），每次讓圖像稍微清晰一點，文字向量全程參與引導方向。 4. **(G) 輸出圖像**：最後用 VAE 解碼器（若是 LDM）把潛在向量還原成完整尺寸的圖像，輸出結果。 **文字提示詞的發揮位置**：在推理階段的 (D) 和 (F) 步驟。文字在 (D) 被編碼成向量，然後在 (F) 的每一步去雜訊中，透過 Cross-Attention 讓文字向量「引導」去雜訊的方向——讓模型偏向生成與文字描述相符的圖像結構。

練習二：選擇適合的圖像生成工具

你的公司有以下三個圖像生成需求，請為每個需求推薦最適合的工具（DALL-E 3 / Midjourney / Stable Diffusion 本地部署），並說明理由：

需求 A：電商平台有 5000 件商品需要生成白底產品圖，每天需要持續大量生成，預算有限，且需要精確控制商品擺放角度。

需求 B：廣告公司需要為客戶的高端鐘錶品牌製作一系列宣傳圖，強調精緻質感和奢華氛圍，需要讓客戶在簡報中看了「驚豔」的第一印象。

需求 C：一家新聞媒體需要為每天發布的 20 篇文章即時配圖，要求圖片能精確呈現文章描述的具體場景（含特定細節），並透過現有 CMS 系統的 API 自動化觸發生成。

點擊查看參考答案

練習二：工具選擇分析

| 需求 | 推薦工具 | 理由 | |------|---------|------| | **A** 大量電商產品圖 | **Stable Diffusion 本地部署** | (1) 大量生成的邊際成本幾乎為零（本地 GPU 電費）；DALL-E 3/Midjourney 按次計費，5000 件商品成本極高。(2) 可用 ControlNet 接受線稿或參考圖控制商品角度，精確度高。(3) 可建立自動化批次處理管線，不受平台 API 速率限制。(4) 資料不傳送至第三方，商品設計保密性高。 | | **B** 高端鐘錶宣傳圖 | **Midjourney** | (1) 美學品質和精緻光影效果是 Midjourney 的核心優勢，「讓客戶驚豔」正是它最擅長的場景。(2) 高端奢侈品風格在 Midjourney 的訓練資料中有大量高品質範例，預設出圖就有專業攝影的質感。(3) 廣告公司體量通常符合商業使用授權。注意事項：使用 Midjourney Pro 版確保商業授權；最終精修仍需設計師介入。 | | **C** 新聞媒體自動配圖 | **DALL-E 3（透過 API）** | (1) 語義理解和文字遵循度最高，能準確呈現文章描述的具體細節（如「三位穿著藍色制服的工人在工廠車間」），這正是 DALL-E 3 的強項。(2) OpenAI 提供完整的 REST API，可直接整合到 CMS 系統中，支援自動化觸發。(3) 每篇文章配一張圖的成本可控，20 篇/天對 API 預算影響不大。注意事項：每張圖需明確標示「AI 生成圖片」以維護新聞倫理。 | > **決策框架總結**：選擇圖像生成工具時，先考慮三個維度：**量（生成量與成本）**→ 大量優選本地部署 SD；**質（美學要求）**→ 追求美感優選 Midjourney；**準（語義準確）**→ 追求準確優選 DALL-E 3。當三者都很重要時，才考慮組合使用或具體測試比較。

關鍵字自我檢核

✅ 擴散模型原理 ✅ 去雜訊過程 ✅ 文字到圖像 ✅ DALL-E 3 ✅ Midjourney ✅ Stable Diffusion ✅ ControlNet ✅ 潛在擴散模型 ✅ 圖像生成著作權 ✅ prompt engineering