← M05 生成式 AI M05 生成式 AI

M05.02｜大型語言模型 LLM：GPT、Claude、Gemini 的運作原理

LLM 的本質就是『超級厲害的文字接龍機器』

L1-AI基礎知識-LLM基礎 L2-AI技術應用-語言模型

🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 🔄 敏捷設計

📋

本講學習重點

LLM 的核心預測任務是什麼？

預訓練用了什麼資料、學到了什麼？

「湧現能力」是什麼？為什麼大家覺得神奇？

縮放定律告訴我們什麼？

上下文視窗（Context Window）的限制如何影響使用？

LLM 的核心任務：預測下一個 token（語言模型 = next token predictor）。給定前面所有 token，計算詞彙表中每個 token 出現在下一位的概率分布，取樣輸出。訓練目標極簡：讓模型預測的下一個 token 與真實資料相符（最小化交叉熵損失）。預訓練：在數兆 token 的網路文字上自監督學習，學到語言規律、世界知識、推理模式。微調（RLHF）：用人類偏好資料讓模型學會對話格式和指令遵循，讓模型「懂得如何幫忙」。湧現能力（Emergent Abilities）：模型在達到某個規模後，突然在沒有專門訓練的任務上表現大幅提升，例如多步推理、語言翻譯、程式撰寫。小模型做不到，大模型突然就能做到。縮放定律（Scaling Laws）：模型性能與參數數量、資料量、算力成正比（對數線性關係）。更大的模型 + 更多的資料 + 更多算力 = 更好的性能，且關係可預測。上下文視窗：模型每次能「看到」的最大 token 數量。GPT-4 Turbo=128K，Gemini 1.5 Pro=1M， Claude 3=200K。超過視窗就會遺忘前面的內容。

📌 LLM 本質是在極大規模文字上訓練的「下一個 token 預測器」。預訓練讓它習得語言知識，RLHF 微調讓它學會對話。湧現能力讓大模型突然在沒有訓練的任務上表現驚人；縮放定律提供了「更大更好」的可預測路徑。上下文視窗是當前最重要的工程瓶頸之一。

🎙️ Podcast（中文）

0:00 / 0:00

一句話搞懂

LLM（大型語言模型）就是一個在海量文字上訓練出來的「超級文字接龍機器」——它每次預測「下一個詞最可能是什麼」，重複幾百次，就生成了一整段有意義的文章。

白話解說

下一個 Token 預測：一切的基礎

理解 LLM 最重要的一句話是：語言模型的訓練目標，是預測序列中的下一個 token。

Token 不完全等同於「字」或「詞」，它是模型的最小處理單位。在英文中，一個 token 大約是 3/4 個詞；在中文中，通常是一個字或一個常用詞組。例如「我喜歡吃台灣牛肉麵」這句話，LLM 可能會切成 [我][喜歡][吃][台灣][牛肉][麵] 共六個 token。

訓練時，模型拿到的資料形如：「我喜歡吃台灣___」，它的任務是預測空格最可能是什麼 token。這個問題反覆出現幾兆次之後，模型被迫學會大量的知識：台灣有什麼食物、哪些食物搭配合理、各種語言的語法規律，以及在語言中隱藏的推理模式。就像一個孩子透過聽大量故事學會了語言，LLM 透過「預測下一個詞」這一個簡單任務，無監督地習得了海量的世界知識。

預訓練：在人類所有文字上自學

GPT-4、Claude 3、Gemini 這些模型，都在「預訓練」階段吃進了幾乎整個可獲取的人類文字世界：CommonCrawl（數兆個網頁的爬蟲資料）、Wikipedia、書籍、GitHub 上的程式碼、學術論文、論壇對話…… 訓練資料總量通常以「兆 token」計算，GPT-3 用了 4,990 億 token，Llama 2 用了 2 兆 token，而更新的模型已突破 15 兆 token。

預訓練完成後，模型的參數（权重）就固化了——這是模型「知道的一切」的靜態快照，包含了大量的語言規律、世界知識和推理能力。但此時的模型只是個「預測下一個詞的高手」，你給它一句話的前半段，它會繼續往下寫，但它不懂得「如何幫人類完成任務」的格式和態度。

這就是為什麼還需要第二個階段：微調（Fine-tuning），尤其是 RLHF（從人類回饋中強化學習，Reinforcement Learning from Human Feedback）。OpenAI 的工程師讓人類評審者對模型的多種回覆評分，再用強化學習讓模型學習「什麼樣的回覆是人類認為有用的」。這個步驟把「預測機器」變成了「對話助理」，是 ChatGPT 上市後令人驚艷的核心原因。

湧現能力：規模帶來的驚喜

2020 年，GPT-3 的論文中出現了一個令研究者困惑的觀察：隨著模型規模從 1 億參數增長到 1,750 億參數，某些能力不是線性成長，而是在某個閾值之後「突然出現」。例如多步數學推理、跨語言翻譯、程式偵錯——小模型完全做不到，大模型突然就能做到，而且沒有針對這些任務進行過任何特殊訓練。

這個現象被稱為湧現能力（Emergent Abilities），是大型語言模型最令人驚訝的特性之一。它的含義是：我們不完全知道大模型「到底學了什麼」，因為它表現出來的能力超越了我們設計的訓練目標。有研究者認為，湧現是因為模型學到了更深層的世界模型（world model），不只是語言統計，而是對語言背後的邏輯和概念的某種表示。這個問題至今沒有完全定論，也是 AI 可解釋性研究的核心議題。

縮放定律與主要模型比較

OpenAI 在 2020 年發表的「縮放定律（Scaling Laws）」研究揭示了一個驚人的規律：LLM 的性能（以困惑度衡量）與模型參數量、訓練資料量、算力之間存在可預測的對數線性關係。換句話說，你可以在訓練之前就預測出一個更大模型的性能。這讓大型科技公司有信心「堆規模」——增加 10 倍的算力和資料，性能的提升幅度是可預期的。

模型	開發商	參數規模（估計）	上下文視窗	特點
GPT-4o	OpenAI	未公開（估計~1 兆混合專家）	128K token	多模態，速度最佳化
Claude 3.5 Sonnet	Anthropic	未公開	200K token	長上下文、安全性佳、程式能力強
Gemini 1.5 Pro	Google DeepMind	未公開	1M token	超長上下文，Google 生態整合
Llama 3.1 405B	Meta	4,050 億	128K token	開源最大模型，可自行部署
Qwen2.5 72B	阿里巴巴	720 億	128K token	中文能力突出，開源版本豐富

上下文視窗：模型的「短期記憶」

上下文視窗（Context Window）是模型每次推理時能「看到」的最大 token 數量。視窗內的所有文字——你的 system prompt、對話歷史、使用者問題——都會被模型一次性考慮，這就是 Transformer 架構中「注意力機制」的計算範圍。超過視窗大小的內容，模型完全看不到，就像你只看到手邊這幾頁書，前面幾百頁完全遺忘了。

128K token 大約相當於一本普通長度的小說（約 10 萬字中文）；1M token 是 Claude 3.5 和 Gemini 1.5 Pro 的頂級配置，能放入整個程式碼庫或一本百科全書。上下文視窗越大，模型在一次對話中能處理的資訊越豐富，但計算成本也成平方級增長（注意力機制的複雜度是 O(n²)），這是 LLM 工程上最核心的挑戰之一。

應用場景

業務場景	LLM 具體用途	適合模型選擇	預期產出
法律事務所合約審閱	上傳合約全文，自動標出風險條款並摘要重點	長上下文模型（Claude/Gemini）	初稿審閱時間縮短 70%
軟體開發輔助	程式碼自動補全、單元測試生成、Bug 解釋	GPT-4o 或 Claude 3.5 Sonnet	工程師效率提升 30-40%
客戶服務知識庫	從 FAQ 和政策文件生成結構化回覆	中型模型搭配 RAG（如 Llama 3）	客服處理量提升、一致性提高
學術研究文獻閱讀	輸入 PDF 全文，摘要、比較、提取關鍵方法	長上下文模型	文獻回顧速度提升 5-10 倍
多語言內容本地化	將行銷文案翻譯並在地化為 15 種語言版本	GPT-4o（多語言能力最均衡）	翻譯成本降低 80%

常見誤區

誤區一：參數越多，模型一定越聰明

模型的有效性取決於參數量、訓練資料品質、訓練目標設計和微調策略的綜合結果，不是單一的參數量。Meta 的 Llama 3.1 8B（80 億參數）在許多日常任務上的表現可與早期的 GPT-4 相當，因為訓練資料更乾淨、訓練方法更先進。更重要的是：在特定領域的微調模型（如醫療、法律專用模型），往往能在本領域超越通用的超大模型。選模型要看「適不適合這個任務」，而不是「誰的參數最多」。

誤區二：LLM 在「推理」，所以它能真正理解問題

LLM 呈現出的「推理」是「預測在語料庫中，這類問題後面通常跟著什麼樣的推論步驟」，而不是如人類般真正理解問題的本質。在一道從未在語料庫中出現過的新型邏輯題上，大型模型的表現可能不如一個受過專業訓練的人類。這也是為什麼鏈式思考提示（Chain-of-Thought）能提升 LLM 的表現——迫使模型在輸出前先寫出中間步驟，讓「預測下一個詞」的機制沿著正確的推理路徑走，而不是直接跳到答案。

誤區三：LLM 的知識是即時更新的

預訓練完成後，模型的知識就凍結在訓練資料的截止日期（knowledge cutoff）。GPT-4 的訓練截止是 2023 年 4 月，Claude 3 是 2023 年 8 月，這之後發生的事它一概不知。這就是為什麼詢問 LLM「今天的股價」或「昨天的新聞」是沒意義的——它的回答來自訓練時的靜態快照，不是即時資料。解決方案是結合搜尋工具（如 RAG 或 Web Search 插件）讓模型能查詢即時資訊，或是持續進行再訓練/微調（成本極高）。

小練習

練習一：Token 計算直覺

以下四段文字，哪一段消耗的 token 數量最多？請先直覺判斷，再思考原因：

(a) 「你好！」（中文問候，2 個字）

(b) “Hello!” （英文問候，6 個字母）

(d) 一段 300 個英文單詞的新聞摘要（平均每個單詞 5 個字母）

點擊查看參考答案

練習一：Token 計算解答

| 文字 | 估計 Token 數 | 說明 | |------|-------------|------| | (a) 「你好！」 | ~2-3 tokens | 中文每個字通常對應 1-2 token | | (b) "Hello!" | ~2 tokens | 英文常用詞通常整個詞是 1 token | | (c) 300 字中文新聞 | ~300-450 tokens | 中文字與 token 幾乎 1:1，標點也佔 token | | (d) 300 英文單詞新聞 | ~400 tokens | 英文 1 token ≈ 0.75 個詞，300 詞 ≈ 400 token | **實際結論**：(c) 和 (d) 差不多，但中文和英文的 token 效率不同。以「資訊密度」計算，中文在同樣 token 數量下通常能傳遞更多意思（因為中文字本身信息密度高）。 > **重要實務意義**：使用 API 時，費用按 token 計算。中文輸入在 token 消耗上並不一定比英文更「貴」，但不同模型的 tokenizer 設計不同，實際 token 數應以模型的 tokenizer 計算為準。OpenAI 提供了 Tokenizer 工具可以實際測試：platform.openai.com/tokenizer

練習二：為你的業務選對模型

你是一家台灣中型電商公司的數位轉型主管，正在評估以下三個 LLM 應用場景，需要為每個場景選擇最適合的模型策略（可從：GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、開源 Llama 3 自部署，四個選項中選）：

場景 A：分析三年份的客服對話紀錄（共 50 萬筆，每筆約 200 字），找出最常見的投訴主題，製作月報。

場景 B：讓客服人員在處理客訴時即時獲得 AI 建議回覆，平均每天 500 次查詢，需要成本控制。

場景 C：審閱一份 800 頁的供應商合約（繁體中文），找出不利條款並摘要風險。

點擊查看參考答案

練習二：場景模型選擇解答

| 場景 | 建議選擇 | 理由 | |------|---------|------| | **A** 50 萬筆對話分析 | **開源 Llama 3 自部署** 或 **批次 API 模式** | 資料量大且含敏感客戶資料，自部署可控制資安風險；分析類任務對即時性要求低，可用批次處理壓低成本 | | **B** 客服即時建議 | **GPT-4o Mini 或 Claude 3 Haiku（輕量版）** | 每天 500 次、需要即時回應，應選性價比高的輕量模型；重點在延遲低、成本低，而非最強能力 | | **C** 800 頁合約審閱 | **Gemini 1.5 Pro 或 Claude 3.5 Sonnet** | 800 頁合約約 40-60 萬中文字（40-60 萬 token），需要超長上下文模型；Gemini 1.5 Pro 的 1M token 視窗可一次放入全文，不需分段處理 | > **核心選模型思維**：先考慮**資料敏感性**（能否傳出去？）→ 再考慮**上下文長度需求** → 再考慮**回應速度需求** → 最後考慮**成本**。沒有一個模型適合所有場景。

關鍵字自我檢核

✅ 大型語言模型 ✅ LLM原理 ✅ 下一個token預測 ✅ 預訓練 ✅ 湧現能力 ✅ 縮放定律 ✅ 上下文視窗 ✅ GPT-4 ✅ Claude ✅ Gemini ✅ Llama