M05.01|生成式 AI 是什麼:從判別到生成的典範轉移
以前 AI 只會選答案,現在 AI 會自己寫答案了
本講學習重點
判別式模型學習「邊界」:給定輸入 x,輸出類別 y,例如「這是貓還是狗」。 生成式模型學習「分布」:能夠產生符合資料統計規律的全新樣本,例如「畫一隻從未存在的貓」。 四大技術世代: 1. GAN(生成對抗網路,2014):生成器與判別器互相博弈,最終生成器能騙過判別器 2. VAE(變分自編碼器,2013):學習資料的潛在空間,從潛在空間取樣再解碼 3. 擴散模型(Diffusion,2020):從雜訊中逐步「去雜訊」還原影像,穩定性更高 4. 大型語言模型 LLM(2017 Transformer→2022 ChatGPT):語言任務的統一生成框架 2022 年拐點:ChatGPT 突破對話品質門檻,DALL-E 2/Stable Diffusion 突破影像生成門檻, 兩者同年爆發,讓一般大眾首次親身感受到「AI 能創造」的能力。
🎙️ Podcast(中文)
一句話搞懂
生成式 AI 是能夠「創造出前所未有的新內容」的 AI 技術——它不是從選項中挑一個答案,而是憑空生成一個答案。
白話解說
判別式思維:AI 在做「選擇題」
在 2022 年以前,我們所接觸的大多數 AI 都是「判別式」的。判別式模型(Discriminative Model)的工作方式是:給我一個輸入,我來判斷它屬於哪個類別。這就像一個有豐富閱卷經驗的老師,他能判斷一篇作文是甲等還是乙等,但他自己不需要寫出一篇甲等作文。電郵垃圾過濾是判別式 AI(判斷「垃圾」或「正常」)、人臉識別是判別式 AI(判斷「是本人」或「不是」)、信用評分也是判別式 AI(判斷「高風險」或「低風險」)。這類模型學習的是「邊界」——什麼特徵組合讓一個輸入落入 A 類而不是 B 類。
| 生成式模型(Generative Model)做的是完全不同的事情。它不是學「邊界」,而是學「分布」——也就是說,它要理解資料長什麼樣子,理解到足以自己製造出符合同樣規律的全新資料。用同樣的作文老師比喻:生成式 AI 不只能打分數,還能自己寫出一篇像學生筆法的作文。這個能力的背後,是模型對「什麼樣的文字組合是合理的」有了深度的統計理解。從數學角度看,判別式模型學的是條件概率 P(y | x)——「給定輸入 x,輸出 y 的概率」;生成式模型學的是聯合概率 P(x, y) 或資料的邊際分布 P(x)——它需要理解輸入本身的完整統計結構。 |
生成式 AI 的四個技術世代
生成式 AI 並非一夜誕生,而是經歷了四個重要的技術浪潮,每一波都突破了前一波的關鍵瓶頸。
第一波:GAN 生成對抗網路(2014 年)。Ian Goodfellow 提出了一個天才設計:讓兩個神經網路互相博弈。「生成器」負責製造假圖片,「判別器」負責辨別真假,兩者一起訓練,生成器越來越擅長造假,判別器越來越擅長識破,最終生成器的作品已無法被辨別真假。GAN 首次讓 AI 能生成逼真的人臉、藝術作品,但訓練不穩定、容易「模式崩潰」是它的痛點。
第二波:VAE 變分自編碼器(2013-2016 年普及)。VAE 走了另一條路:先把資料「壓縮」到一個低維的「潛在空間」(latent space),再從潛在空間「解碼」重建資料。關鍵在於潛在空間是連續的、可插值的——你可以在「貓的潛在表示」和「狗的潛在表示」之間取中間點,生成一隻半貓半狗的生物。VAE 帶來了可控生成的概念,但生成的圖像往往比 GAN 模糊。
第三波:擴散模型(Diffusion Model,2020-2022 年)。擴散模型的思路是:把乾淨的圖片逐步加入雜訊直到變成純雜訊,然後訓練模型學習「如何逆轉這個過程」——從雜訊一步步還原成乾淨的圖片。這個框架訓練極其穩定,生成品質遠超 GAN,且能接受文字描述來引導生成方向。Stable Diffusion、DALL-E 2、Midjourney 都是擴散模型的產物,徹底改寫了 AI 藝術的格局。
第四波:大型語言模型(LLM,2017 Transformer→2022 ChatGPT)。2017 年 Google 提出 Transformer 架構,打破了序列模型的處理瓶頸。2020 年 GPT-3 展示了「規模帶來新能力」的驚人現象。2022 年 11 月 ChatGPT 上線,對話品質首次讓普通用戶感受到 AI 生成的實用性。語言模型的生成本質是「預測下一個 token」——從統計角度逐詞產生,卻呈現出令人咋舌的連貫性與知識深度。
為什麼 2022 年是拐點
2022 年同時發生了兩件決定性的事:影像生成(Stable Diffusion、DALL-E 2、Midjourney)和語言生成(ChatGPT)同年突破「普通人可用」的品質門檻。在這之前,生成式 AI 存在於研究室;在這之後,設計師用 AI 生圖、文案寫手用 AI 起草,工作流程被真實改變。這不是技術上的單點突破,而是「品質達到工作可用」的複合爆發——算力(GPU 普及)、資料(網路規模語料)、架構(Transformer)三個條件同時成熟。
生成的本質:概率抽樣而非靈感
很多人以為生成式 AI 有「創意」或「靈感」。事實上,生成的底層機制是概率抽樣:模型計算「在當前上下文下,下一個輸出是什麼的概率分布」,然後從這個分布中取樣。因此,同樣的 prompt 給同樣的模型,每次輸出都可能不同——因為每次取樣的結果不同。這也解釋了為什麼生成式 AI 有時會「亂說話」(hallucinate):它不是在「查詢事實」,而是在「生成統計上合理的續文」,合理不代表正確。
應用場景
| 場景 | 使用的生成式 AI 類型 | 具體產出 | 導入效益 |
|---|---|---|---|
| 行銷部門製作廣告素材 | 影像生成(擴散模型) | 產品情境圖、活動 Banner | 降低外包設計成本 50-70% |
| 客服部門自動回覆草稿 | 大型語言模型 | 個人化回覆初稿,人員確認後發送 | 客服回覆時間縮短 60% |
| 遊戲公司生成 NPC 對話 | 大型語言模型 | 動態劇情分支、個性化台詞 | 劇情內容量提升 10 倍 |
| 製藥公司探索分子結構 | 分子生成模型(如 AlphaFold) | 候選藥物分子設計 | 早期篩選效率大幅提升 |
| 音樂平台生成背景音樂 | 音頻生成模型(如 Suno) | 依情境生成無版權音樂 | 版權授權成本歸零 |
常見誤區
誤區一:生成式 AI「知道」它說的東西是真的
生成式 AI 的輸出是統計意義上的「續文」,不是從事實資料庫中查詢的答案。模型在訓練時學到「什麼樣的文字組合在語料庫中常一起出現」,生成時從這個統計規律中取樣。所以它可以自信地生成一個聽起來很合理、但實際上並不存在的「研究報告」或「歷史事件」。這個現象稱為幻覺(Hallucination),是生成式 AI 固有的特性,不是 bug,而是這種生成機制的必然副產品。理解這一點,才能設計出適當的人工審核流程。
誤區二:生成式 AI 和判別式 AI 是對立的、後者已經被淘汰
實際上兩者是互補的。在許多生產系統中,兩者並肩工作:生成式 AI 負責產生候選內容,判別式 AI 負責過濾、評分、選擇最佳結果。例如 Google 的搜尋系統用 LLM 生成答案摘要,同時用排序模型(判別式)決定哪些資訊來源最相關。再如內容平台用生成式 AI 協助創作,用判別式模型做內容安全審核。判別式 AI 在準確率要求極高、決策需要可解釋的場景仍然不可或缺。
誤區三:「生成」代表「原創」,AI 生成的作品不涉及版權問題
生成式 AI 是從訓練資料的統計分布中取樣,而訓練資料包含了大量有版權的人類創作。生成的作品在風格、結構甚至局部內容上可能高度依賴特定訓練素材。目前全球各地法院和立法機構對 AI 生成物的版權歸屬仍無定論,有些司法管轄區認為 AI 生成物不具版權(因為沒有「人類作者」),有些則視情況而定。企業在商業場景使用 AI 生成內容時,需要了解所使用模型的訓練資料來源聲明和授權條款,避免法律風險。
小練習
練習一:判別式 vs 生成式分類
以下六個 AI 應用,請判斷各屬於「判別式 AI」還是「生成式 AI」,並說明你的判斷理由:
(a) Gmail 的智慧回覆建議(提供三個短句讓你選)
(b) Adobe Firefly 根據文字描述生成圖片
(c) 銀行 APP 的人臉解鎖
(d) ChatGPT 幫你寫一份企劃書
(e) YouTube 推薦「你可能喜歡的影片」
(f) Sora 根據文字描述生成 15 秒影片
點擊查看參考答案
練習一:判別式 vs 生成式分類解答
| 應用 | 類型 | 判斷理由 | |------|------|---------| | (a) Gmail 智慧回覆 | **生成式 AI** | 雖然看起來像「選擇」,但三個建議本身是由語言模型根據郵件內容生成的新文字,不是從固定資料庫選出 | | (b) Adobe Firefly 文字生圖 | **生成式 AI** | 從文字描述生成前所未有的影像,屬於影像生成(擴散模型) | | (c) 人臉解鎖 | **判別式 AI** | 判斷「這張臉是否符合已知的本人特徵」,是二元分類任務 | | (d) ChatGPT 寫企劃書 | **生成式 AI** | 從零產生文字內容,是典型的語言生成 | | (e) YouTube 影片推薦 | **判別式 AI** | 本質是「預測這個用戶喜歡這支影片的概率」,屬於預測排序任務 | | (f) Sora 文字生影片 | **生成式 AI** | 生成像素級別的影像序列,是最前沿的影片生成模型 | > **容易混淆的點**:Gmail 智慧回覆「看起來像選項」,但選項本身是 AI 生成的,所以仍屬生成式。判斷關鍵在於:AI 的輸出是「從既有類別中選」還是「從頭創造新內容」。練習二:2022 年拐點的技術條件分析
有人說「生成式 AI 的技術其實早就存在,2022 年只是突然爆紅」。請從「算力」、「資料」、「架構/演算法」三個維度,各舉一個具體的技術條件,說明為什麼這三個條件在 2022 年前後同時成熟,造就了這次爆發。