← M05 生成式 AI M05 生成式 AI

M05.02|大型語言模型 LLM:GPT、Claude、Gemini 的運作原理

LLM 的本質就是『超級厲害的文字接龍機器』

L1-AI基礎知識-LLM基礎 L2-AI技術應用-語言模型
🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 🔄 敏捷設計
大型語言模型 LLM GPT Claude Transformer 語言模型
📋

本講學習重點

LLM 的核心預測任務是什麼?
預訓練用了什麼資料、學到了什麼?
「湧現能力」是什麼?為什麼大家覺得神奇?
縮放定律告訴我們什麼?
上下文視窗(Context Window)的限制如何影響使用?

LLM 的核心任務:預測下一個 token(語言模型 = next token predictor)。 給定前面所有 token,計算詞彙表中每個 token 出現在下一位的概率分布,取樣輸出。 訓練目標極簡:讓模型預測的下一個 token 與真實資料相符(最小化交叉熵損失)。 預訓練:在數兆 token 的網路文字上自監督學習,學到語言規律、世界知識、推理模式。 微調(RLHF):用人類偏好資料讓模型學會對話格式和指令遵循,讓模型「懂得如何幫忙」。 湧現能力(Emergent Abilities):模型在達到某個規模後,突然在沒有專門訓練的任務上 表現大幅提升,例如多步推理、語言翻譯、程式撰寫。小模型做不到,大模型突然就能做到。 縮放定律(Scaling Laws):模型性能與參數數量、資料量、算力成正比(對數線性關係)。 更大的模型 + 更多的資料 + 更多算力 = 更好的性能,且關係可預測。 上下文視窗:模型每次能「看到」的最大 token 數量。GPT-4 Turbo=128K,Gemini 1.5 Pro=1M, Claude 3=200K。超過視窗就會遺忘前面的內容。

📌 LLM 本質是在極大規模文字上訓練的「下一個 token 預測器」。 預訓練讓它習得語言知識,RLHF 微調讓它學會對話。 湧現能力讓大模型突然在沒有訓練的任務上表現驚人; 縮放定律提供了「更大更好」的可預測路徑。 上下文視窗是當前最重要的工程瓶頸之一。
大型語言模型 LLM:GPT、Claude、Gemini 的運作原理

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

LLM(大型語言模型)就是一個在海量文字上訓練出來的「超級文字接龍機器」——它每次預測「下一個詞最可能是什麼」,重複幾百次,就生成了一整段有意義的文章。


白話解說

下一個 Token 預測:一切的基礎

理解 LLM 最重要的一句話是:語言模型的訓練目標,是預測序列中的下一個 token

Token 不完全等同於「字」或「詞」,它是模型的最小處理單位。在英文中,一個 token 大約是 3/4 個詞;在中文中,通常是一個字或一個常用詞組。例如「我喜歡吃台灣牛肉麵」這句話,LLM 可能會切成 [我][喜歡][吃][台灣][牛肉][麵] 共六個 token。

訓練時,模型拿到的資料形如:「我喜歡吃台灣___」,它的任務是預測空格最可能是什麼 token。這個問題反覆出現幾兆次之後,模型被迫學會大量的知識:台灣有什麼食物、哪些食物搭配合理、各種語言的語法規律,以及在語言中隱藏的推理模式。就像一個孩子透過聽大量故事學會了語言,LLM 透過「預測下一個詞」這一個簡單任務,無監督地習得了海量的世界知識。

預訓練:在人類所有文字上自學

GPT-4、Claude 3、Gemini 這些模型,都在「預訓練」階段吃進了幾乎整個可獲取的人類文字世界:CommonCrawl(數兆個網頁的爬蟲資料)、Wikipedia、書籍、GitHub 上的程式碼、學術論文、論壇對話…… 訓練資料總量通常以「兆 token」計算,GPT-3 用了 4,990 億 token,Llama 2 用了 2 兆 token,而更新的模型已突破 15 兆 token。

預訓練完成後,模型的參數(权重)就固化了——這是模型「知道的一切」的靜態快照,包含了大量的語言規律、世界知識和推理能力。但此時的模型只是個「預測下一個詞的高手」,你給它一句話的前半段,它會繼續往下寫,但它不懂得「如何幫人類完成任務」的格式和態度。

這就是為什麼還需要第二個階段:微調(Fine-tuning),尤其是 RLHF(從人類回饋中強化學習,Reinforcement Learning from Human Feedback)。OpenAI 的工程師讓人類評審者對模型的多種回覆評分,再用強化學習讓模型學習「什麼樣的回覆是人類認為有用的」。這個步驟把「預測機器」變成了「對話助理」,是 ChatGPT 上市後令人驚艷的核心原因。

湧現能力:規模帶來的驚喜

2020 年,GPT-3 的論文中出現了一個令研究者困惑的觀察:隨著模型規模從 1 億參數增長到 1,750 億參數,某些能力不是線性成長,而是在某個閾值之後「突然出現」。例如多步數學推理、跨語言翻譯、程式偵錯——小模型完全做不到,大模型突然就能做到,而且沒有針對這些任務進行過任何特殊訓練。

這個現象被稱為湧現能力(Emergent Abilities),是大型語言模型最令人驚訝的特性之一。它的含義是:我們不完全知道大模型「到底學了什麼」,因為它表現出來的能力超越了我們設計的訓練目標。有研究者認為,湧現是因為模型學到了更深層的世界模型(world model),不只是語言統計,而是對語言背後的邏輯和概念的某種表示。這個問題至今沒有完全定論,也是 AI 可解釋性研究的核心議題。

縮放定律與主要模型比較

OpenAI 在 2020 年發表的「縮放定律(Scaling Laws)」研究揭示了一個驚人的規律:LLM 的性能(以困惑度衡量)與模型參數量、訓練資料量、算力之間存在可預測的對數線性關係。換句話說,你可以在訓練之前就預測出一個更大模型的性能。這讓大型科技公司有信心「堆規模」——增加 10 倍的算力和資料,性能的提升幅度是可預期的。

模型 開發商 參數規模(估計) 上下文視窗 特點
GPT-4o OpenAI 未公開(估計~1 兆混合專家) 128K token 多模態,速度最佳化
Claude 3.5 Sonnet Anthropic 未公開 200K token 長上下文、安全性佳、程式能力強
Gemini 1.5 Pro Google DeepMind 未公開 1M token 超長上下文,Google 生態整合
Llama 3.1 405B Meta 4,050 億 128K token 開源最大模型,可自行部署
Qwen2.5 72B 阿里巴巴 720 億 128K token 中文能力突出,開源版本豐富

上下文視窗:模型的「短期記憶」

上下文視窗(Context Window)是模型每次推理時能「看到」的最大 token 數量。視窗內的所有文字——你的 system prompt、對話歷史、使用者問題——都會被模型一次性考慮,這就是 Transformer 架構中「注意力機制」的計算範圍。超過視窗大小的內容,模型完全看不到,就像你只看到手邊這幾頁書,前面幾百頁完全遺忘了。

128K token 大約相當於一本普通長度的小說(約 10 萬字中文);1M token 是 Claude 3.5 和 Gemini 1.5 Pro 的頂級配置,能放入整個程式碼庫或一本百科全書。上下文視窗越大,模型在一次對話中能處理的資訊越豐富,但計算成本也成平方級增長(注意力機制的複雜度是 O(n²)),這是 LLM 工程上最核心的挑戰之一。


應用場景

業務場景 LLM 具體用途 適合模型選擇 預期產出
法律事務所合約審閱 上傳合約全文,自動標出風險條款並摘要重點 長上下文模型(Claude/Gemini) 初稿審閱時間縮短 70%
軟體開發輔助 程式碼自動補全、單元測試生成、Bug 解釋 GPT-4o 或 Claude 3.5 Sonnet 工程師效率提升 30-40%
客戶服務知識庫 從 FAQ 和政策文件生成結構化回覆 中型模型搭配 RAG(如 Llama 3) 客服處理量提升、一致性提高
學術研究文獻閱讀 輸入 PDF 全文,摘要、比較、提取關鍵方法 長上下文模型 文獻回顧速度提升 5-10 倍
多語言內容本地化 將行銷文案翻譯並在地化為 15 種語言版本 GPT-4o(多語言能力最均衡) 翻譯成本降低 80%

常見誤區

誤區一:參數越多,模型一定越聰明

模型的有效性取決於參數量、訓練資料品質、訓練目標設計和微調策略的綜合結果,不是單一的參數量。Meta 的 Llama 3.1 8B(80 億參數)在許多日常任務上的表現可與早期的 GPT-4 相當,因為訓練資料更乾淨、訓練方法更先進。更重要的是:在特定領域的微調模型(如醫療、法律專用模型),往往能在本領域超越通用的超大模型。選模型要看「適不適合這個任務」,而不是「誰的參數最多」。

誤區二:LLM 在「推理」,所以它能真正理解問題

LLM 呈現出的「推理」是「預測在語料庫中,這類問題後面通常跟著什麼樣的推論步驟」,而不是如人類般真正理解問題的本質。在一道從未在語料庫中出現過的新型邏輯題上,大型模型的表現可能不如一個受過專業訓練的人類。這也是為什麼鏈式思考提示(Chain-of-Thought)能提升 LLM 的表現——迫使模型在輸出前先寫出中間步驟,讓「預測下一個詞」的機制沿著正確的推理路徑走,而不是直接跳到答案。

誤區三:LLM 的知識是即時更新的

預訓練完成後,模型的知識就凍結在訓練資料的截止日期(knowledge cutoff)。GPT-4 的訓練截止是 2023 年 4 月,Claude 3 是 2023 年 8 月,這之後發生的事它一概不知。這就是為什麼詢問 LLM「今天的股價」或「昨天的新聞」是沒意義的——它的回答來自訓練時的靜態快照,不是即時資料。解決方案是結合搜尋工具(如 RAG 或 Web Search 插件)讓模型能查詢即時資訊,或是持續進行再訓練/微調(成本極高)。


小練習

練習一:Token 計算直覺

以下四段文字,哪一段消耗的 token 數量最多?請先直覺判斷,再思考原因:

(a) 「你好!」(中文問候,2 個字)

(b) “Hello!” (英文問候,6 個字母)

(c) 一段 300 字的中文新聞摘要

(d) 一段 300 個英文單詞的新聞摘要(平均每個單詞 5 個字母)

點擊查看參考答案

練習一:Token 計算解答

| 文字 | 估計 Token 數 | 說明 | |------|-------------|------| | (a) 「你好!」 | ~2-3 tokens | 中文每個字通常對應 1-2 token | | (b) "Hello!" | ~2 tokens | 英文常用詞通常整個詞是 1 token | | (c) 300 字中文新聞 | ~300-450 tokens | 中文字與 token 幾乎 1:1,標點也佔 token | | (d) 300 英文單詞新聞 | ~400 tokens | 英文 1 token ≈ 0.75 個詞,300 詞 ≈ 400 token | **實際結論**:(c) 和 (d) 差不多,但中文和英文的 token 效率不同。以「資訊密度」計算,中文在同樣 token 數量下通常能傳遞更多意思(因為中文字本身信息密度高)。 > **重要實務意義**:使用 API 時,費用按 token 計算。中文輸入在 token 消耗上並不一定比英文更「貴」,但不同模型的 tokenizer 設計不同,實際 token 數應以模型的 tokenizer 計算為準。OpenAI 提供了 Tokenizer 工具可以實際測試:platform.openai.com/tokenizer

練習二:為你的業務選對模型

你是一家台灣中型電商公司的數位轉型主管,正在評估以下三個 LLM 應用場景,需要為每個場景選擇最適合的模型策略(可從:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、開源 Llama 3 自部署,四個選項中選):

場景 A:分析三年份的客服對話紀錄(共 50 萬筆,每筆約 200 字),找出最常見的投訴主題,製作月報。

場景 B:讓客服人員在處理客訴時即時獲得 AI 建議回覆,平均每天 500 次查詢,需要成本控制。

場景 C:審閱一份 800 頁的供應商合約(繁體中文),找出不利條款並摘要風險。

點擊查看參考答案

練習二:場景模型選擇解答

| 場景 | 建議選擇 | 理由 | |------|---------|------| | **A** 50 萬筆對話分析 | **開源 Llama 3 自部署** 或 **批次 API 模式** | 資料量大且含敏感客戶資料,自部署可控制資安風險;分析類任務對即時性要求低,可用批次處理壓低成本 | | **B** 客服即時建議 | **GPT-4o Mini 或 Claude 3 Haiku(輕量版)** | 每天 500 次、需要即時回應,應選性價比高的輕量模型;重點在延遲低、成本低,而非最強能力 | | **C** 800 頁合約審閱 | **Gemini 1.5 Pro 或 Claude 3.5 Sonnet** | 800 頁合約約 40-60 萬中文字(40-60 萬 token),需要超長上下文模型;Gemini 1.5 Pro 的 1M token 視窗可一次放入全文,不需分段處理 | > **核心選模型思維**:先考慮**資料敏感性**(能否傳出去?)→ 再考慮**上下文長度需求** → 再考慮**回應速度需求** → 最後考慮**成本**。沒有一個模型適合所有場景。

關鍵字自我檢核

✅ 大型語言模型 ✅ LLM原理 ✅ 下一個token預測 ✅ 預訓練 ✅ 湧現能力 ✅ 縮放定律 ✅ 上下文視窗 ✅ GPT-4 ✅ Claude ✅ Gemini ✅ Llama