M07.06|多模態 AI:看圖說話、聽聲辨物的全能選手
真正的 AI 不只看文字 — 它要同時理解圖片、聲音和文字
本講學習重點
多模態 AI:同時處理兩種以上資料模態(文字、圖片、聲音、影片)的 AI 系統
CLIP(2021):用 4 億圖文對進行對比學習,把圖片和文字投影到同一向量空間
對比學習:拉近匹配圖文對的向量距離,推遠不匹配的配對,無需標注類別
早期融合:把多種模態的原始特徵合併後一起送入模型(深度整合但資料對齊難)
晚期融合:各模態分別產出預測結果再合併(靈活但損失跨模態互動資訊)
混合融合:在中間層進行跨模態注意力交互(GPT-4V、Gemini 採用的主流方案)
GPT-4V:GPT-4 加上視覺編碼器,可理解圖片內容並以文字回答問題
Gemini:Google 從一開始設計為原生多模態,同時訓練文字、圖片、音訊、影片
VQA(Visual Question Answering):多模態理解的標準評估任務
幻覺問題(Hallucination):多模態模型有時描述圖中不存在的物件或細節
🎙️ Podcast(中文)
一句話搞懂
多模態 AI 就像一個同時能看、能聽、能讀的 AI——它不只理解文字,還能把一張圖片的內容說給你聽、聽一段描述找出對應的照片、或者看著手術影像回答醫生的問題;關鍵突破在於讓不同「語言」(圖片的像素語言、文字的 token 語言、聲音的頻譜語言)找到共同的「翻譯橋樑」,在同一個向量空間裡互相溝通。
白話解說
為什麼單模態 AI 不夠用
想像你要設計一個 AI 系統來處理一家醫院的業務:病人的電子病歷是文字,X 光片和 CT 掃描是圖片,醫生的口頭診斷記錄是聲音,手術過程的記錄是影片。如果你用四個獨立的 AI 模型分別處理這四種資料,每個模型得到的答案是碎片化的——文字模型不知道 X 光片長什麼樣,影像模型看不懂病歷記錄,兩者無法整合推理。
真實世界的資訊天然是多模態的。人類在判斷一件事時,會同時整合視覺(眼睛看到的)、聽覺(耳朵聽到的)和語言(文字或口語讀到的),三種訊息互相驗證、補充缺失。多模態 AI(Multimodal AI) 的目標就是讓機器具備同樣的能力:跨越不同資料形式之間的鴻溝,在一個統一的智能框架下理解和推理。
多模態 AI 的技術挑戰比單模態更複雜,原因有三:模態異質性——圖片是二維像素矩陣,文字是離散 token 序列,聲音是時間序列波形,它們的資料結構根本不同,不能直接相加;對齊難題——「一隻在草地上奔跑的金色拉布拉多」這段文字要怎麼和對應的圖片「配對」?它們在數學上毫無關係,需要學習這種映射關係;資料稀缺——高品質的多模態標注資料(同一段內容有圖、有文、有聲音標注)比單模態資料難收集得多。
CLIP:用對比學習打通圖文世界
2021 年 1 月,OpenAI 發布了 CLIP(Contrastive Language-Image Pre-training),這是多模態 AI 的重要里程碑。CLIP 的核心思想出乎意料地簡單:從網路上收集了 4 億個圖片-文字配對(圖片及其對應的說明文字),然後訓練兩個編碼器——圖片編碼器(改良自 ViT 或 ResNet)把圖片壓縮成一個向量,文字編碼器(改良自 Transformer)把文字也壓縮成同維度的向量——用對比學習(Contrastive Learning) 的方式訓練:讓正確配對的圖文向量在高維空間中盡量靠近,錯誤配對的盡量拉遠。
訓練完成後,CLIP 創造了一個神奇的效果:圖片和文字被映射到同一個「語意空間」裡。想知道一張圖片是「狗」還是「貓」,只需要計算這張圖片的向量和「一張狗的照片」、「一張貓的照片」兩段文字向量的餘弦相似度,哪個相似度高就是哪個類別——這就是零樣本分類(Zero-shot Classification),不需要重新訓練或提供任何「狗」「貓」的標注圖片。CLIP 在 ImageNet 上的零樣本準確率接近早期監督學習的水準,讓業界震驚。
CLIP 的意義不只在分類:它成為了後續多模態應用的基礎基石。文字搜尋圖片(輸入「夕陽下的海灘」,找出最相似的圖片)、圖片搜尋文字、甚至後來的擴散模型(如 Stable Diffusion)都是基於 CLIP 的圖文對齊能力來引導圖像生成。
GPT-4V 和 Gemini:大型多模態模型的當代水準
如果 CLIP 是「讓圖文在同一空間對齊」,那 GPT-4V(GPT-4 with Vision) 和 Google Gemini 代表的是「讓大型語言模型真正看懂圖片並推理」。
GPT-4V(2023 年 9 月)的設計思路是:在成熟的 GPT-4 大型語言模型上,接入一個視覺編碼器(類似強化版的 CLIP 圖片編碼器),把圖片轉換成 token 序列,與文字 token 混合後送入 GPT-4 的 Transformer 主體。GPT-4V 能做的遠不只「這張圖片是什麼」:它能閱讀圖表並解釋趨勢、分析電路圖的設計問題、描述一張複雜場景照片中多人的互動關係、甚至辨識手寫數學公式並求解。
Google Gemini(2023 年 12 月)的設計理念更激進:它從一開始就是原生多模態(Natively Multimodal)——不是在現有語言模型上「外掛」視覺能力,而是在訓練時就同時餵入文字、圖片、音訊、影片、程式碼,讓模型在底層就建立跨模態的統一表示。Gemini 的優勢在於:它對影片的理解能力(可以回答「影片第 3 分鐘發生了什麼?」)、對長文字搭配多圖的理解(如一份含圖表的科學論文)、以及可以直接輸入和輸出音訊,而不需要先轉成文字。
融合策略:多模態如何「整合」不同訊號
多模態 AI 的技術核心問題之一是:來自不同模態的資訊要在哪個層次合併?這就是融合策略的選擇,主要有三種路線。
早期融合(Early Fusion):在資料進入模型之前,就把不同模態的特徵「拼接」在一起——例如把圖片像素和文字 embedding 直接串接成一個長向量,送入一個統一的神經網路。優點是模型可以從最底層就學習跨模態的互動;缺點是不同模態的資料格式差異極大,對齊和融合的難度高,而且需要所有模態的資料同時存在(缺一個模態就無法運作)。
晚期融合(Late Fusion):各個模態有各自獨立的模型,分別產生預測結果(或中間層向量),最後再用一個簡單的合併機制(投票、加權平均、或一個小型融合網路)整合最終答案。優點是各模態模型可以獨立訓練和替換,缺點是損失了模態之間的細粒度互動資訊——兩個模態的「對話」只發生在最後輸出層,中間過程互相封閉。
混合融合(Hybrid Fusion):在模型的中間層,讓不同模態的表示透過跨模態注意力機制(Cross-Modal Attention) 互相「對話」——文字 token 可以關注(Attend to)圖片的視覺特徵,圖片的視覺特徵也可以被文字語境修正。GPT-4V 和 Gemini 都採用了這種混合融合的思路,這也是目前多模態大型模型的主流架構方向。
應用場景
| 場景 | 涉及模態 | 核心能力 | 代表系統 |
|---|---|---|---|
| 電商視覺搜尋 | 圖片 + 文字 | 輸入圖片找相似商品,或輸入文字描述搜圖 | Pinterest Visual Search、Google Lens |
| 醫療影像報告生成 | 圖片 + 文字 | 分析 X 光/CT 影像,自動生成初步診斷報告文字 | Google Med-PaLM 2、GPT-4V 醫療應用 |
| 工業瑕疵檢測 + 說明 | 圖片 + 文字 | 偵測產品表面瑕疵並輸出可讀的缺陷描述報告 | 多模態品管 AI 系統 |
| 文件理解與問答 | 圖片(掃描文件)+ 文字 | 理解含圖表的 PDF 並回答問題,跨頁資訊整合 | GPT-4V、Gemini 長文件分析 |
| 影片內容摘要 | 影片 + 音訊 + 文字 | 把一段影片自動摘要成文字重點,含影像場景 | Gemini 影片理解 |
| 無障礙輔助 | 圖片 → 文字 → 聲音 | 即時描述視障者眼前場景,語音播報 | Be My Eyes + GPT-4V |
| 創意內容生成 | 文字 → 圖片 | 根據文字描述生成對應圖片 | Stable Diffusion、DALL-E 3、Midjourney |
常見誤區
誤區 1:「多模態 AI 就是把圖片識別 API 和文字 AI 分開呼叫再合併結果」
把一個圖片分類 API 的結果(「這是一隻貓」)傳給一個文字 AI 處理,不是多模態 AI——這只是兩個獨立單模態系統的串接,中間的資訊瓶頸極大。真正的多模態 AI 的價值在於跨模態推理:圖片中的細節(人物的表情、背景的物件)能影響文字理解,文字的語境(「這張圖的問題在哪裡?」)能引導視覺注意力聚焦在圖片的特定區域。例如詢問 GPT-4V「圖中這個電路接線有什麼問題?」,它能結合電路知識和視覺辨識,定位出具體的接線錯誤——這不是把「電路圖描述文字」交給文字 GPT 就能做到的,它需要直接處理視覺資訊。簡單的 API 串接在許多應用下夠用,但碰到需要細粒度跨模態推理的場景,就必須使用真正的多模態模型。
誤區 2:「多模態模型更大、資料更多,所以在所有任務上都比單模態模型強」
多模態能力有時反而會稀釋單模態任務的性能。一個純語言的 GPT-4 在純文字推理任務(如複雜數學題、長文理解)上,往往比同規模的 GPT-4V(加入視覺能力)還稍微強一點點——因為訓練計算量和模型容量要分給多個模態,純語言任務的「份額」相對減少。同樣地,專為醫療 X 光分類訓練的單模態 CNN 模型,在 X 光分類的準確率上可能仍超過通用多模態大型模型。因此,技術選型時要根據具體任務:如果只需要處理純文字或純圖片,專用的單模態模型效率更高;只有當任務真的需要跨模態推理時,多模態模型才是最佳選擇。
誤區 3:「多模態 AI 看圖的結果一定是可信的,不會像文字模型一樣幻覺」
多模態模型同樣會「幻覺(Hallucination)」,而且視覺幻覺有時比文字幻覺更難察覺。常見的視覺幻覺類型包括:物件幻覺——模型描述圖中實際上不存在的物件(「圖中有三個人,左邊的人拿著雨傘」,但實際上沒有雨傘);計數錯誤——誤判圖中物件數量;OCR 幻覺——把圖中的文字認錯(特別是模糊或手寫文字);空間關係錯誤——把「左邊」說成「右邊」。在醫療影像判讀、法律文件審核等高風險場景,絕不能無條件信任多模態模型的輸出,必須有人工複核流程。Google 和 OpenAI 的多模態模型評估報告中都記錄了視覺幻覺問題,這是目前仍在持續改進的技術缺陷。
小練習
練習 1:判斷融合策略
一家零售銀行想建立一個系統,讓行員在與客戶面談時,能即時分析客戶的語音情緒(聲音模態)和面部表情(視覺模態),同時結合客戶填寫的問卷答案(文字模態),綜合評估客戶對金融產品的真實興趣程度。
請回答以下問題:
- 這個系統使用了哪幾種模態?
- 如果用「晚期融合」設計,系統如何運作?它的主要缺點是什麼?
- 如果用「混合融合」,相較於晚期融合最大的優勢在哪裡?
- 這個系統還有哪些非技術面的問題需要考量?
查看答案
**1. 涉及的模態:** 三種模態——**聲音**(語音情緒分析)、**視覺**(面部表情辨識)、**文字**(問卷答案理解)。 **2. 晚期融合的運作方式與缺點:** 晚期融合的運作:分別訓練三個獨立模型——聲音情緒分類模型(輸出:興奮/平靜/抗拒,各自有信心分數)、面部表情模型(輸出:正面/負面/中立,各自信心分數)、文字 NLP 模型(分析問卷的用詞傾向)。最後,用一個加權投票機制把三個模型的輸出合併成一個「興趣分數」。 主要缺點:三個模態的資訊在最後才整合,喪失了**跨模態的細粒度互動**。例如,客戶說「聽起來不錯」(聲音語氣平靜、文字傾向正面),但表情皺眉(視覺傾向負面)——這三個訊號要放在一起才能推論出「客戶嘴上說好但表情顯示猶豫」。晚期融合很難捕捉這種跨模態的矛盾訊號,因為合併發生在最後輸出層,中間的細節已被壓縮成一個標籤。 **3. 混合融合的優勢:** 混合融合(跨模態注意力)讓聲音、視覺、文字的中間層特徵向量互相「對話」:文字中提到特定金融術語時,模型可以動態關注對應時刻的聲音語調是否猶豫;客戶表情出現微表情(視覺)時,模型可以重新審視同時刻說出的話(聲音+文字)是否與情緒一致。這種跨模態的細粒度互動能捕捉矛盾訊號,對「言行不一致」的情況判斷更準確。 **4. 非技術面問題(同等重要):** - **知情同意**:在客戶不知情的情況下分析其表情和語音情緒,可能違反個人資料保護法。必須明確告知客戶並取得書面同意。 - **偏見與歧視風險**:面部表情辨識模型在不同族裔、性別、年齡上準確率存在差異,若用於金融產品推薦決策,可能構成算法歧視。 - **金融業法規**:台灣金管會對金融機構使用 AI 輔助業務員銷售行為有相關規範,必須確認此系統的使用符合「公平待客原則」。 - **員工信任問題**:行員可能感到自己也被監控(系統同時錄音錄影),影響員工士氣和勞資關係。練習 2:應用場景分析與限制評估
以下是四個多模態 AI 的潛在應用場景,請為每個場景填入:使用的模態、最主要的技術挑戰、以及你認為「準備好大規模部署」的程度(高/中/低),並簡述理由:
| 場景 | 使用模態 | 最主要技術挑戰 | 部署就緒度 | 理由 |
|---|---|---|---|---|
| A. 食品工廠即時視覺品管:AI 攝影機自動辨識不合格產品,並語音播報「第 3 號產線第 7 號位置發現異物」 | ? | ? | ? | ? |
| B. 課堂學習助理:學生拍下黑板上的數學題,AI 語音解說解題步驟 | ? | ? | ? | ? |
| C. 緊急救護現場輔助:救護員戴上 AR 眼鏡,AI 即時分析傷患狀況畫面並語音提示處置建議 | ? | ? | ? | ? |
| D. 社群媒體內容審核:同時分析貼文圖片和文字說明,偵測仇恨言論 | ? | ? | ? | ? |