M05.02|大型語言模型 LLM:GPT、Claude、Gemini 的運作原理
LLM 的本質就是『超級厲害的文字接龍機器』
本講學習重點
LLM 的核心任務:預測下一個 token(語言模型 = next token predictor)。 給定前面所有 token,計算詞彙表中每個 token 出現在下一位的概率分布,取樣輸出。 訓練目標極簡:讓模型預測的下一個 token 與真實資料相符(最小化交叉熵損失)。 預訓練:在數兆 token 的網路文字上自監督學習,學到語言規律、世界知識、推理模式。 微調(RLHF):用人類偏好資料讓模型學會對話格式和指令遵循,讓模型「懂得如何幫忙」。 湧現能力(Emergent Abilities):模型在達到某個規模後,突然在沒有專門訓練的任務上 表現大幅提升,例如多步推理、語言翻譯、程式撰寫。小模型做不到,大模型突然就能做到。 縮放定律(Scaling Laws):模型性能與參數數量、資料量、算力成正比(對數線性關係)。 更大的模型 + 更多的資料 + 更多算力 = 更好的性能,且關係可預測。 上下文視窗:模型每次能「看到」的最大 token 數量。GPT-4 Turbo=128K,Gemini 1.5 Pro=1M, Claude 3=200K。超過視窗就會遺忘前面的內容。
🎙️ Podcast(中文)
一句話搞懂
LLM(大型語言模型)就是一個在海量文字上訓練出來的「超級文字接龍機器」——它每次預測「下一個詞最可能是什麼」,重複幾百次,就生成了一整段有意義的文章。
白話解說
下一個 Token 預測:一切的基礎
理解 LLM 最重要的一句話是:語言模型的訓練目標,是預測序列中的下一個 token。
Token 不完全等同於「字」或「詞」,它是模型的最小處理單位。在英文中,一個 token 大約是 3/4 個詞;在中文中,通常是一個字或一個常用詞組。例如「我喜歡吃台灣牛肉麵」這句話,LLM 可能會切成 [我][喜歡][吃][台灣][牛肉][麵] 共六個 token。
訓練時,模型拿到的資料形如:「我喜歡吃台灣___」,它的任務是預測空格最可能是什麼 token。這個問題反覆出現幾兆次之後,模型被迫學會大量的知識:台灣有什麼食物、哪些食物搭配合理、各種語言的語法規律,以及在語言中隱藏的推理模式。就像一個孩子透過聽大量故事學會了語言,LLM 透過「預測下一個詞」這一個簡單任務,無監督地習得了海量的世界知識。
預訓練:在人類所有文字上自學
GPT-4、Claude 3、Gemini 這些模型,都在「預訓練」階段吃進了幾乎整個可獲取的人類文字世界:CommonCrawl(數兆個網頁的爬蟲資料)、Wikipedia、書籍、GitHub 上的程式碼、學術論文、論壇對話…… 訓練資料總量通常以「兆 token」計算,GPT-3 用了 4,990 億 token,Llama 2 用了 2 兆 token,而更新的模型已突破 15 兆 token。
預訓練完成後,模型的參數(权重)就固化了——這是模型「知道的一切」的靜態快照,包含了大量的語言規律、世界知識和推理能力。但此時的模型只是個「預測下一個詞的高手」,你給它一句話的前半段,它會繼續往下寫,但它不懂得「如何幫人類完成任務」的格式和態度。
這就是為什麼還需要第二個階段:微調(Fine-tuning),尤其是 RLHF(從人類回饋中強化學習,Reinforcement Learning from Human Feedback)。OpenAI 的工程師讓人類評審者對模型的多種回覆評分,再用強化學習讓模型學習「什麼樣的回覆是人類認為有用的」。這個步驟把「預測機器」變成了「對話助理」,是 ChatGPT 上市後令人驚艷的核心原因。
湧現能力:規模帶來的驚喜
2020 年,GPT-3 的論文中出現了一個令研究者困惑的觀察:隨著模型規模從 1 億參數增長到 1,750 億參數,某些能力不是線性成長,而是在某個閾值之後「突然出現」。例如多步數學推理、跨語言翻譯、程式偵錯——小模型完全做不到,大模型突然就能做到,而且沒有針對這些任務進行過任何特殊訓練。
這個現象被稱為湧現能力(Emergent Abilities),是大型語言模型最令人驚訝的特性之一。它的含義是:我們不完全知道大模型「到底學了什麼」,因為它表現出來的能力超越了我們設計的訓練目標。有研究者認為,湧現是因為模型學到了更深層的世界模型(world model),不只是語言統計,而是對語言背後的邏輯和概念的某種表示。這個問題至今沒有完全定論,也是 AI 可解釋性研究的核心議題。
縮放定律與主要模型比較
OpenAI 在 2020 年發表的「縮放定律(Scaling Laws)」研究揭示了一個驚人的規律:LLM 的性能(以困惑度衡量)與模型參數量、訓練資料量、算力之間存在可預測的對數線性關係。換句話說,你可以在訓練之前就預測出一個更大模型的性能。這讓大型科技公司有信心「堆規模」——增加 10 倍的算力和資料,性能的提升幅度是可預期的。
| 模型 | 開發商 | 參數規模(估計) | 上下文視窗 | 特點 |
|---|---|---|---|---|
| GPT-4o | OpenAI | 未公開(估計~1 兆混合專家) | 128K token | 多模態,速度最佳化 |
| Claude 3.5 Sonnet | Anthropic | 未公開 | 200K token | 長上下文、安全性佳、程式能力強 |
| Gemini 1.5 Pro | Google DeepMind | 未公開 | 1M token | 超長上下文,Google 生態整合 |
| Llama 3.1 405B | Meta | 4,050 億 | 128K token | 開源最大模型,可自行部署 |
| Qwen2.5 72B | 阿里巴巴 | 720 億 | 128K token | 中文能力突出,開源版本豐富 |
上下文視窗:模型的「短期記憶」
上下文視窗(Context Window)是模型每次推理時能「看到」的最大 token 數量。視窗內的所有文字——你的 system prompt、對話歷史、使用者問題——都會被模型一次性考慮,這就是 Transformer 架構中「注意力機制」的計算範圍。超過視窗大小的內容,模型完全看不到,就像你只看到手邊這幾頁書,前面幾百頁完全遺忘了。
128K token 大約相當於一本普通長度的小說(約 10 萬字中文);1M token 是 Claude 3.5 和 Gemini 1.5 Pro 的頂級配置,能放入整個程式碼庫或一本百科全書。上下文視窗越大,模型在一次對話中能處理的資訊越豐富,但計算成本也成平方級增長(注意力機制的複雜度是 O(n²)),這是 LLM 工程上最核心的挑戰之一。
應用場景
| 業務場景 | LLM 具體用途 | 適合模型選擇 | 預期產出 |
|---|---|---|---|
| 法律事務所合約審閱 | 上傳合約全文,自動標出風險條款並摘要重點 | 長上下文模型(Claude/Gemini) | 初稿審閱時間縮短 70% |
| 軟體開發輔助 | 程式碼自動補全、單元測試生成、Bug 解釋 | GPT-4o 或 Claude 3.5 Sonnet | 工程師效率提升 30-40% |
| 客戶服務知識庫 | 從 FAQ 和政策文件生成結構化回覆 | 中型模型搭配 RAG(如 Llama 3) | 客服處理量提升、一致性提高 |
| 學術研究文獻閱讀 | 輸入 PDF 全文,摘要、比較、提取關鍵方法 | 長上下文模型 | 文獻回顧速度提升 5-10 倍 |
| 多語言內容本地化 | 將行銷文案翻譯並在地化為 15 種語言版本 | GPT-4o(多語言能力最均衡) | 翻譯成本降低 80% |
常見誤區
誤區一:參數越多,模型一定越聰明
模型的有效性取決於參數量、訓練資料品質、訓練目標設計和微調策略的綜合結果,不是單一的參數量。Meta 的 Llama 3.1 8B(80 億參數)在許多日常任務上的表現可與早期的 GPT-4 相當,因為訓練資料更乾淨、訓練方法更先進。更重要的是:在特定領域的微調模型(如醫療、法律專用模型),往往能在本領域超越通用的超大模型。選模型要看「適不適合這個任務」,而不是「誰的參數最多」。
誤區二:LLM 在「推理」,所以它能真正理解問題
LLM 呈現出的「推理」是「預測在語料庫中,這類問題後面通常跟著什麼樣的推論步驟」,而不是如人類般真正理解問題的本質。在一道從未在語料庫中出現過的新型邏輯題上,大型模型的表現可能不如一個受過專業訓練的人類。這也是為什麼鏈式思考提示(Chain-of-Thought)能提升 LLM 的表現——迫使模型在輸出前先寫出中間步驟,讓「預測下一個詞」的機制沿著正確的推理路徑走,而不是直接跳到答案。
誤區三:LLM 的知識是即時更新的
預訓練完成後,模型的知識就凍結在訓練資料的截止日期(knowledge cutoff)。GPT-4 的訓練截止是 2023 年 4 月,Claude 3 是 2023 年 8 月,這之後發生的事它一概不知。這就是為什麼詢問 LLM「今天的股價」或「昨天的新聞」是沒意義的——它的回答來自訓練時的靜態快照,不是即時資料。解決方案是結合搜尋工具(如 RAG 或 Web Search 插件)讓模型能查詢即時資訊,或是持續進行再訓練/微調(成本極高)。
小練習
練習一:Token 計算直覺
以下四段文字,哪一段消耗的 token 數量最多?請先直覺判斷,再思考原因:
(a) 「你好!」(中文問候,2 個字)
(b) “Hello!” (英文問候,6 個字母)
(c) 一段 300 字的中文新聞摘要
(d) 一段 300 個英文單詞的新聞摘要(平均每個單詞 5 個字母)
點擊查看參考答案
練習一:Token 計算解答
| 文字 | 估計 Token 數 | 說明 | |------|-------------|------| | (a) 「你好!」 | ~2-3 tokens | 中文每個字通常對應 1-2 token | | (b) "Hello!" | ~2 tokens | 英文常用詞通常整個詞是 1 token | | (c) 300 字中文新聞 | ~300-450 tokens | 中文字與 token 幾乎 1:1,標點也佔 token | | (d) 300 英文單詞新聞 | ~400 tokens | 英文 1 token ≈ 0.75 個詞,300 詞 ≈ 400 token | **實際結論**:(c) 和 (d) 差不多,但中文和英文的 token 效率不同。以「資訊密度」計算,中文在同樣 token 數量下通常能傳遞更多意思(因為中文字本身信息密度高)。 > **重要實務意義**:使用 API 時,費用按 token 計算。中文輸入在 token 消耗上並不一定比英文更「貴」,但不同模型的 tokenizer 設計不同,實際 token 數應以模型的 tokenizer 計算為準。OpenAI 提供了 Tokenizer 工具可以實際測試:platform.openai.com/tokenizer練習二:為你的業務選對模型
你是一家台灣中型電商公司的數位轉型主管,正在評估以下三個 LLM 應用場景,需要為每個場景選擇最適合的模型策略(可從:GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro、開源 Llama 3 自部署,四個選項中選):
場景 A:分析三年份的客服對話紀錄(共 50 萬筆,每筆約 200 字),找出最常見的投訴主題,製作月報。
場景 B:讓客服人員在處理客訴時即時獲得 AI 建議回覆,平均每天 500 次查詢,需要成本控制。
場景 C:審閱一份 800 頁的供應商合約(繁體中文),找出不利條款並摘要風險。