← M05 生成式 AI M05 生成式 AI

M05.01｜生成式 AI 是什麼：從判別到生成的典範轉移

以前 AI 只會選答案，現在 AI 會自己寫答案了

L1-AI基礎知識-生成式AI定義 L1-AI基礎知識-生成式vs判別式

🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 📶 解決先備條件

📋

本講學習重點

判別式模型和生成式模型的根本差異是什麼？

生成式 AI 的四大技術世代是什麼？

為什麼 2022 年是生成式 AI 的拐點？

生成的本質是「概率抽樣」還是「創意思考」？

判別式模型學習「邊界」：給定輸入 x，輸出類別 y，例如「這是貓還是狗」。生成式模型學習「分布」：能夠產生符合資料統計規律的全新樣本，例如「畫一隻從未存在的貓」。四大技術世代： 1. GAN（生成對抗網路，2014）：生成器與判別器互相博弈，最終生成器能騙過判別器 2. VAE（變分自編碼器，2013）：學習資料的潛在空間，從潛在空間取樣再解碼 3. 擴散模型（Diffusion，2020）：從雜訊中逐步「去雜訊」還原影像，穩定性更高 4. 大型語言模型 LLM（2017 Transformer→2022 ChatGPT）：語言任務的統一生成框架 2022 年拐點：ChatGPT 突破對話品質門檻，DALL-E 2/Stable Diffusion 突破影像生成門檻，兩者同年爆發，讓一般大眾首次親身感受到「AI 能創造」的能力。

📌 生成式 AI 的本質是學習資料的統計分布，然後從分布中取樣產生新內容，而不是在既有類別中做選擇。從 GAN 到 VAE 到擴散模型到 LLM，技術路線各異但目標一致：讓機器能夠「無中生有」。 2022 年是民用化拐點，生成品質首次達到日常工作可用的水準。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

生成式 AI 是能夠「創造出前所未有的新內容」的 AI 技術——它不是從選項中挑一個答案，而是憑空生成一個答案。

白話解說

判別式思維：AI 在做「選擇題」

在 2022 年以前，我們所接觸的大多數 AI 都是「判別式」的。判別式模型（Discriminative Model）的工作方式是：給我一個輸入，我來判斷它屬於哪個類別。這就像一個有豐富閱卷經驗的老師，他能判斷一篇作文是甲等還是乙等，但他自己不需要寫出一篇甲等作文。電郵垃圾過濾是判別式 AI（判斷「垃圾」或「正常」）、人臉識別是判別式 AI（判斷「是本人」或「不是」）、信用評分也是判別式 AI（判斷「高風險」或「低風險」）。這類模型學習的是「邊界」——什麼特徵組合讓一個輸入落入 A 類而不是 B 類。

生成式模型（Generative Model）做的是完全不同的事情。它不是學「邊界」，而是學「分布」——也就是說，它要理解資料長什麼樣子，理解到足以自己製造出符合同樣規律的全新資料。用同樣的作文老師比喻：生成式 AI 不只能打分數，還能自己寫出一篇像學生筆法的作文。這個能力的背後，是模型對「什麼樣的文字組合是合理的」有了深度的統計理解。從數學角度看，判別式模型學的是條件概率 P(y

x)——「給定輸入 x，輸出 y 的概率」；生成式模型學的是聯合概率 P(x, y) 或資料的邊際分布 P(x)——它需要理解輸入本身的完整統計結構。

生成式 AI 的四個技術世代

生成式 AI 並非一夜誕生，而是經歷了四個重要的技術浪潮，每一波都突破了前一波的關鍵瓶頸。

第一波：GAN 生成對抗網路（2014 年）。Ian Goodfellow 提出了一個天才設計：讓兩個神經網路互相博弈。「生成器」負責製造假圖片，「判別器」負責辨別真假，兩者一起訓練，生成器越來越擅長造假，判別器越來越擅長識破，最終生成器的作品已無法被辨別真假。GAN 首次讓 AI 能生成逼真的人臉、藝術作品，但訓練不穩定、容易「模式崩潰」是它的痛點。

第二波：VAE 變分自編碼器（2013-2016 年普及）。VAE 走了另一條路：先把資料「壓縮」到一個低維的「潛在空間」（latent space），再從潛在空間「解碼」重建資料。關鍵在於潛在空間是連續的、可插值的——你可以在「貓的潛在表示」和「狗的潛在表示」之間取中間點，生成一隻半貓半狗的生物。VAE 帶來了可控生成的概念，但生成的圖像往往比 GAN 模糊。

第三波：擴散模型（Diffusion Model，2020-2022 年）。擴散模型的思路是：把乾淨的圖片逐步加入雜訊直到變成純雜訊，然後訓練模型學習「如何逆轉這個過程」——從雜訊一步步還原成乾淨的圖片。這個框架訓練極其穩定，生成品質遠超 GAN，且能接受文字描述來引導生成方向。Stable Diffusion、DALL-E 2、Midjourney 都是擴散模型的產物，徹底改寫了 AI 藝術的格局。

第四波：大型語言模型（LLM，2017 Transformer→2022 ChatGPT）。2017 年 Google 提出 Transformer 架構，打破了序列模型的處理瓶頸。2020 年 GPT-3 展示了「規模帶來新能力」的驚人現象。2022 年 11 月 ChatGPT 上線，對話品質首次讓普通用戶感受到 AI 生成的實用性。語言模型的生成本質是「預測下一個 token」——從統計角度逐詞產生，卻呈現出令人咋舌的連貫性與知識深度。

為什麼 2022 年是拐點

2022 年同時發生了兩件決定性的事：影像生成（Stable Diffusion、DALL-E 2、Midjourney）和語言生成（ChatGPT）同年突破「普通人可用」的品質門檻。在這之前，生成式 AI 存在於研究室；在這之後，設計師用 AI 生圖、文案寫手用 AI 起草，工作流程被真實改變。這不是技術上的單點突破，而是「品質達到工作可用」的複合爆發——算力（GPU 普及）、資料（網路規模語料）、架構（Transformer）三個條件同時成熟。

生成的本質：概率抽樣而非靈感

很多人以為生成式 AI 有「創意」或「靈感」。事實上，生成的底層機制是概率抽樣：模型計算「在當前上下文下，下一個輸出是什麼的概率分布」，然後從這個分布中取樣。因此，同樣的 prompt 給同樣的模型，每次輸出都可能不同——因為每次取樣的結果不同。這也解釋了為什麼生成式 AI 有時會「亂說話」（hallucinate）：它不是在「查詢事實」，而是在「生成統計上合理的續文」，合理不代表正確。

應用場景

場景	使用的生成式 AI 類型	具體產出	導入效益
行銷部門製作廣告素材	影像生成（擴散模型）	產品情境圖、活動 Banner	降低外包設計成本 50-70%
客服部門自動回覆草稿	大型語言模型	個人化回覆初稿，人員確認後發送	客服回覆時間縮短 60%
遊戲公司生成 NPC 對話	大型語言模型	動態劇情分支、個性化台詞	劇情內容量提升 10 倍
製藥公司探索分子結構	分子生成模型（如 AlphaFold）	候選藥物分子設計	早期篩選效率大幅提升
音樂平台生成背景音樂	音頻生成模型（如 Suno）	依情境生成無版權音樂	版權授權成本歸零

常見誤區

誤區一：生成式 AI「知道」它說的東西是真的

生成式 AI 的輸出是統計意義上的「續文」，不是從事實資料庫中查詢的答案。模型在訓練時學到「什麼樣的文字組合在語料庫中常一起出現」，生成時從這個統計規律中取樣。所以它可以自信地生成一個聽起來很合理、但實際上並不存在的「研究報告」或「歷史事件」。這個現象稱為幻覺（Hallucination），是生成式 AI 固有的特性，不是 bug，而是這種生成機制的必然副產品。理解這一點，才能設計出適當的人工審核流程。

誤區二：生成式 AI 和判別式 AI 是對立的、後者已經被淘汰

實際上兩者是互補的。在許多生產系統中，兩者並肩工作：生成式 AI 負責產生候選內容，判別式 AI 負責過濾、評分、選擇最佳結果。例如 Google 的搜尋系統用 LLM 生成答案摘要，同時用排序模型（判別式）決定哪些資訊來源最相關。再如內容平台用生成式 AI 協助創作，用判別式模型做內容安全審核。判別式 AI 在準確率要求極高、決策需要可解釋的場景仍然不可或缺。

誤區三：「生成」代表「原創」，AI 生成的作品不涉及版權問題

生成式 AI 是從訓練資料的統計分布中取樣，而訓練資料包含了大量有版權的人類創作。生成的作品在風格、結構甚至局部內容上可能高度依賴特定訓練素材。目前全球各地法院和立法機構對 AI 生成物的版權歸屬仍無定論，有些司法管轄區認為 AI 生成物不具版權（因為沒有「人類作者」），有些則視情況而定。企業在商業場景使用 AI 生成內容時，需要了解所使用模型的訓練資料來源聲明和授權條款，避免法律風險。

小練習

練習一：判別式 vs 生成式分類

以下六個 AI 應用，請判斷各屬於「判別式 AI」還是「生成式 AI」，並說明你的判斷理由：

(a) Gmail 的智慧回覆建議（提供三個短句讓你選）

(b) Adobe Firefly 根據文字描述生成圖片

(d) ChatGPT 幫你寫一份企劃書

(e) YouTube 推薦「你可能喜歡的影片」

(f) Sora 根據文字描述生成 15 秒影片

點擊查看參考答案

練習一：判別式 vs 生成式分類解答

| 應用 | 類型 | 判斷理由 | |------|------|---------| | (a) Gmail 智慧回覆 | **生成式 AI** | 雖然看起來像「選擇」，但三個建議本身是由語言模型根據郵件內容生成的新文字，不是從固定資料庫選出 | | (b) Adobe Firefly 文字生圖 | **生成式 AI** | 從文字描述生成前所未有的影像，屬於影像生成（擴散模型） | | (c) 人臉解鎖 | **判別式 AI** | 判斷「這張臉是否符合已知的本人特徵」，是二元分類任務 | | (d) ChatGPT 寫企劃書 | **生成式 AI** | 從零產生文字內容，是典型的語言生成 | | (e) YouTube 影片推薦 | **判別式 AI** | 本質是「預測這個用戶喜歡這支影片的概率」，屬於預測排序任務 | | (f) Sora 文字生影片 | **生成式 AI** | 生成像素級別的影像序列，是最前沿的影片生成模型 | > **容易混淆的點**：Gmail 智慧回覆「看起來像選項」，但選項本身是 AI 生成的，所以仍屬生成式。判斷關鍵在於：AI 的輸出是「從既有類別中選」還是「從頭創造新內容」。

練習二：2022 年拐點的技術條件分析

有人說「生成式 AI 的技術其實早就存在，2022 年只是突然爆紅」。請從「算力」、「資料」、「架構/演算法」三個維度，各舉一個具體的技術條件，說明為什麼這三個條件在 2022 年前後同時成熟，造就了這次爆發。

點擊查看參考答案

練習二：三條件成熟分析

| 維度 | 關鍵條件 | 成熟時間點 | |------|---------|-----------| | **算力** | NVIDIA A100/H100 GPU 普及，雲端 GPU 算力成本大幅下降；訓練千億參數模型從「不可能」變成「燒錢但可行」 | 2020-2022 | | **資料** | CommonCrawl、Books3 等網路規模語料庫（數兆 token）建立完成；LAION-5B 圖文對資料集（58 億圖文對）開源，提供擴散模型訓練所需的大規模資料 | 2021-2022 | | **架構** | 2017 年 Transformer 架構確立；2020 年 GPT-3 驗證「規模即能力」；2022 年 RLHF（人類回饋強化學習）讓模型對話品質跨越實用門檻，由「能說話」變成「說得讓人覺得有用」 | 2017→2022 | > **核心洞察**：技術爆發往往不是單一突破，而是多個條件同時成熟的共振。就像手機革命需要觸控螢幕 + 3G 網路 + App 生態系同時就位一樣，生成式 AI 的爆發也需要算力 + 資料 + 演算法三箭齊發。缺少任何一個，效果都會大打折扣。

關鍵字自我檢核

✅ 生成式AI定義 ✅ 判別式模型 ✅ 生成式模型 ✅ GAN ✅ VAE ✅ 擴散模型 ✅ 大型語言模型 ✅ 2022年AI拐點