← M07 NLP / CV / 多模態 M07 NLP / CV / 多模態

M07.06|多模態 AI:看圖說話、聽聲辨物的全能選手

真正的 AI 不只看文字 — 它要同時理解圖片、聲音和文字

L1-AI基礎知識-多模態AI L2-AI技術應用-多模態模型
🇺🇸 DOL AI Literacy 🧠 理解 AI 原理 🔄 敏捷設計
多模態AI CLIP GPT-4V Gemini 跨模態理解 融合策略 視覺語言模型
📋

本講學習重點

多模態 AI 和單模態 AI 的根本差異是什麼?
CLIP 如何用對比學習對齊圖文空間?
早期融合、晚期融合、混合融合的優缺點?
GPT-4V 和 Gemini 的多模態能力有何不同?
跨模態理解面臨哪些技術挑戰?

多模態 AI:同時處理兩種以上資料模態(文字、圖片、聲音、影片)的 AI 系統

CLIP(2021):用 4 億圖文對進行對比學習,把圖片和文字投影到同一向量空間

對比學習:拉近匹配圖文對的向量距離,推遠不匹配的配對,無需標注類別

早期融合:把多種模態的原始特徵合併後一起送入模型(深度整合但資料對齊難)

晚期融合:各模態分別產出預測結果再合併(靈活但損失跨模態互動資訊)

混合融合:在中間層進行跨模態注意力交互(GPT-4V、Gemini 採用的主流方案)

GPT-4V:GPT-4 加上視覺編碼器,可理解圖片內容並以文字回答問題

Gemini:Google 從一開始設計為原生多模態,同時訓練文字、圖片、音訊、影片

VQA(Visual Question Answering):多模態理解的標準評估任務

幻覺問題(Hallucination):多模態模型有時描述圖中不存在的物件或細節

📌 多模態 AI 是能同時理解並跨越文字、圖片、聲音、影片等多種資料形式的 AI 系統。CLIP 透過對比學習把圖文投影到共同向量空間,開創了零樣本視覺識別的新方向;GPT-4V 和 Gemini 代表了大型多模態模型的當代水準,能理解複雜圖片並進行推理對話。多模態融合策略從早期融合、晚期融合演進到混合融合,核心挑戰在於如何讓不同模態的表示對齊並有效互動。多模態 AI 的應用涵蓋醫療影像分析、工業品質管制、電商視覺搜尋等高價值場景。
多模態 AI:看圖說話、聽聲辨物的全能選手

🎙️ Podcast(中文)

0:00 / 0:00

一句話搞懂

多模態 AI 就像一個同時能看、能聽、能讀的 AI——它不只理解文字,還能把一張圖片的內容說給你聽、聽一段描述找出對應的照片、或者看著手術影像回答醫生的問題;關鍵突破在於讓不同「語言」(圖片的像素語言、文字的 token 語言、聲音的頻譜語言)找到共同的「翻譯橋樑」,在同一個向量空間裡互相溝通。


白話解說

為什麼單模態 AI 不夠用

想像你要設計一個 AI 系統來處理一家醫院的業務:病人的電子病歷是文字,X 光片和 CT 掃描是圖片,醫生的口頭診斷記錄是聲音,手術過程的記錄是影片。如果你用四個獨立的 AI 模型分別處理這四種資料,每個模型得到的答案是碎片化的——文字模型不知道 X 光片長什麼樣,影像模型看不懂病歷記錄,兩者無法整合推理。

真實世界的資訊天然是多模態的。人類在判斷一件事時,會同時整合視覺(眼睛看到的)、聽覺(耳朵聽到的)和語言(文字或口語讀到的),三種訊息互相驗證、補充缺失。多模態 AI(Multimodal AI) 的目標就是讓機器具備同樣的能力:跨越不同資料形式之間的鴻溝,在一個統一的智能框架下理解和推理。

多模態 AI 的技術挑戰比單模態更複雜,原因有三:模態異質性——圖片是二維像素矩陣,文字是離散 token 序列,聲音是時間序列波形,它們的資料結構根本不同,不能直接相加;對齊難題——「一隻在草地上奔跑的金色拉布拉多」這段文字要怎麼和對應的圖片「配對」?它們在數學上毫無關係,需要學習這種映射關係;資料稀缺——高品質的多模態標注資料(同一段內容有圖、有文、有聲音標注)比單模態資料難收集得多。

CLIP:用對比學習打通圖文世界

2021 年 1 月,OpenAI 發布了 CLIP(Contrastive Language-Image Pre-training),這是多模態 AI 的重要里程碑。CLIP 的核心思想出乎意料地簡單:從網路上收集了 4 億個圖片-文字配對(圖片及其對應的說明文字),然後訓練兩個編碼器——圖片編碼器(改良自 ViT 或 ResNet)把圖片壓縮成一個向量,文字編碼器(改良自 Transformer)把文字也壓縮成同維度的向量——用對比學習(Contrastive Learning) 的方式訓練:讓正確配對的圖文向量在高維空間中盡量靠近,錯誤配對的盡量拉遠。

訓練完成後,CLIP 創造了一個神奇的效果:圖片和文字被映射到同一個「語意空間」裡。想知道一張圖片是「狗」還是「貓」,只需要計算這張圖片的向量和「一張狗的照片」、「一張貓的照片」兩段文字向量的餘弦相似度,哪個相似度高就是哪個類別——這就是零樣本分類(Zero-shot Classification),不需要重新訓練或提供任何「狗」「貓」的標注圖片。CLIP 在 ImageNet 上的零樣本準確率接近早期監督學習的水準,讓業界震驚。

CLIP 的意義不只在分類:它成為了後續多模態應用的基礎基石。文字搜尋圖片(輸入「夕陽下的海灘」,找出最相似的圖片)、圖片搜尋文字、甚至後來的擴散模型(如 Stable Diffusion)都是基於 CLIP 的圖文對齊能力來引導圖像生成。

GPT-4V 和 Gemini:大型多模態模型的當代水準

如果 CLIP 是「讓圖文在同一空間對齊」,那 GPT-4V(GPT-4 with Vision)Google Gemini 代表的是「讓大型語言模型真正看懂圖片並推理」。

GPT-4V(2023 年 9 月)的設計思路是:在成熟的 GPT-4 大型語言模型上,接入一個視覺編碼器(類似強化版的 CLIP 圖片編碼器),把圖片轉換成 token 序列,與文字 token 混合後送入 GPT-4 的 Transformer 主體。GPT-4V 能做的遠不只「這張圖片是什麼」:它能閱讀圖表並解釋趨勢、分析電路圖的設計問題、描述一張複雜場景照片中多人的互動關係、甚至辨識手寫數學公式並求解。

Google Gemini(2023 年 12 月)的設計理念更激進:它從一開始就是原生多模態(Natively Multimodal)——不是在現有語言模型上「外掛」視覺能力,而是在訓練時就同時餵入文字、圖片、音訊、影片、程式碼,讓模型在底層就建立跨模態的統一表示。Gemini 的優勢在於:它對影片的理解能力(可以回答「影片第 3 分鐘發生了什麼?」)、對長文字搭配多圖的理解(如一份含圖表的科學論文)、以及可以直接輸入和輸出音訊,而不需要先轉成文字。

融合策略:多模態如何「整合」不同訊號

多模態 AI 的技術核心問題之一是:來自不同模態的資訊要在哪個層次合併?這就是融合策略的選擇,主要有三種路線。

早期融合(Early Fusion):在資料進入模型之前,就把不同模態的特徵「拼接」在一起——例如把圖片像素和文字 embedding 直接串接成一個長向量,送入一個統一的神經網路。優點是模型可以從最底層就學習跨模態的互動;缺點是不同模態的資料格式差異極大,對齊和融合的難度高,而且需要所有模態的資料同時存在(缺一個模態就無法運作)。

晚期融合(Late Fusion):各個模態有各自獨立的模型,分別產生預測結果(或中間層向量),最後再用一個簡單的合併機制(投票、加權平均、或一個小型融合網路)整合最終答案。優點是各模態模型可以獨立訓練和替換,缺點是損失了模態之間的細粒度互動資訊——兩個模態的「對話」只發生在最後輸出層,中間過程互相封閉。

混合融合(Hybrid Fusion):在模型的中間層,讓不同模態的表示透過跨模態注意力機制(Cross-Modal Attention) 互相「對話」——文字 token 可以關注(Attend to)圖片的視覺特徵,圖片的視覺特徵也可以被文字語境修正。GPT-4V 和 Gemini 都採用了這種混合融合的思路,這也是目前多模態大型模型的主流架構方向。


應用場景

場景 涉及模態 核心能力 代表系統
電商視覺搜尋 圖片 + 文字 輸入圖片找相似商品,或輸入文字描述搜圖 Pinterest Visual Search、Google Lens
醫療影像報告生成 圖片 + 文字 分析 X 光/CT 影像,自動生成初步診斷報告文字 Google Med-PaLM 2、GPT-4V 醫療應用
工業瑕疵檢測 + 說明 圖片 + 文字 偵測產品表面瑕疵並輸出可讀的缺陷描述報告 多模態品管 AI 系統
文件理解與問答 圖片(掃描文件)+ 文字 理解含圖表的 PDF 並回答問題,跨頁資訊整合 GPT-4V、Gemini 長文件分析
影片內容摘要 影片 + 音訊 + 文字 把一段影片自動摘要成文字重點,含影像場景 Gemini 影片理解
無障礙輔助 圖片 → 文字 → 聲音 即時描述視障者眼前場景,語音播報 Be My Eyes + GPT-4V
創意內容生成 文字 → 圖片 根據文字描述生成對應圖片 Stable Diffusion、DALL-E 3、Midjourney

常見誤區

誤區 1:「多模態 AI 就是把圖片識別 API 和文字 AI 分開呼叫再合併結果」

把一個圖片分類 API 的結果(「這是一隻貓」)傳給一個文字 AI 處理,不是多模態 AI——這只是兩個獨立單模態系統的串接,中間的資訊瓶頸極大。真正的多模態 AI 的價值在於跨模態推理:圖片中的細節(人物的表情、背景的物件)能影響文字理解,文字的語境(「這張圖的問題在哪裡?」)能引導視覺注意力聚焦在圖片的特定區域。例如詢問 GPT-4V「圖中這個電路接線有什麼問題?」,它能結合電路知識和視覺辨識,定位出具體的接線錯誤——這不是把「電路圖描述文字」交給文字 GPT 就能做到的,它需要直接處理視覺資訊。簡單的 API 串接在許多應用下夠用,但碰到需要細粒度跨模態推理的場景,就必須使用真正的多模態模型。

誤區 2:「多模態模型更大、資料更多,所以在所有任務上都比單模態模型強」

多模態能力有時反而會稀釋單模態任務的性能。一個純語言的 GPT-4 在純文字推理任務(如複雜數學題、長文理解)上,往往比同規模的 GPT-4V(加入視覺能力)還稍微強一點點——因為訓練計算量和模型容量要分給多個模態,純語言任務的「份額」相對減少。同樣地,專為醫療 X 光分類訓練的單模態 CNN 模型,在 X 光分類的準確率上可能仍超過通用多模態大型模型。因此,技術選型時要根據具體任務:如果只需要處理純文字或純圖片,專用的單模態模型效率更高;只有當任務真的需要跨模態推理時,多模態模型才是最佳選擇。

誤區 3:「多模態 AI 看圖的結果一定是可信的,不會像文字模型一樣幻覺」

多模態模型同樣會「幻覺(Hallucination)」,而且視覺幻覺有時比文字幻覺更難察覺。常見的視覺幻覺類型包括:物件幻覺——模型描述圖中實際上不存在的物件(「圖中有三個人,左邊的人拿著雨傘」,但實際上沒有雨傘);計數錯誤——誤判圖中物件數量;OCR 幻覺——把圖中的文字認錯(特別是模糊或手寫文字);空間關係錯誤——把「左邊」說成「右邊」。在醫療影像判讀、法律文件審核等高風險場景,絕不能無條件信任多模態模型的輸出,必須有人工複核流程。Google 和 OpenAI 的多模態模型評估報告中都記錄了視覺幻覺問題,這是目前仍在持續改進的技術缺陷。


小練習

練習 1:判斷融合策略

一家零售銀行想建立一個系統,讓行員在與客戶面談時,能即時分析客戶的語音情緒(聲音模態)和面部表情(視覺模態),同時結合客戶填寫的問卷答案(文字模態),綜合評估客戶對金融產品的真實興趣程度。

請回答以下問題:

  1. 這個系統使用了哪幾種模態?
  2. 如果用「晚期融合」設計,系統如何運作?它的主要缺點是什麼?
  3. 如果用「混合融合」,相較於晚期融合最大的優勢在哪裡?
  4. 這個系統還有哪些非技術面的問題需要考量?
查看答案 **1. 涉及的模態:** 三種模態——**聲音**(語音情緒分析)、**視覺**(面部表情辨識)、**文字**(問卷答案理解)。 **2. 晚期融合的運作方式與缺點:** 晚期融合的運作:分別訓練三個獨立模型——聲音情緒分類模型(輸出:興奮/平靜/抗拒,各自有信心分數)、面部表情模型(輸出:正面/負面/中立,各自信心分數)、文字 NLP 模型(分析問卷的用詞傾向)。最後,用一個加權投票機制把三個模型的輸出合併成一個「興趣分數」。 主要缺點:三個模態的資訊在最後才整合,喪失了**跨模態的細粒度互動**。例如,客戶說「聽起來不錯」(聲音語氣平靜、文字傾向正面),但表情皺眉(視覺傾向負面)——這三個訊號要放在一起才能推論出「客戶嘴上說好但表情顯示猶豫」。晚期融合很難捕捉這種跨模態的矛盾訊號,因為合併發生在最後輸出層,中間的細節已被壓縮成一個標籤。 **3. 混合融合的優勢:** 混合融合(跨模態注意力)讓聲音、視覺、文字的中間層特徵向量互相「對話」:文字中提到特定金融術語時,模型可以動態關注對應時刻的聲音語調是否猶豫;客戶表情出現微表情(視覺)時,模型可以重新審視同時刻說出的話(聲音+文字)是否與情緒一致。這種跨模態的細粒度互動能捕捉矛盾訊號,對「言行不一致」的情況判斷更準確。 **4. 非技術面問題(同等重要):** - **知情同意**:在客戶不知情的情況下分析其表情和語音情緒,可能違反個人資料保護法。必須明確告知客戶並取得書面同意。 - **偏見與歧視風險**:面部表情辨識模型在不同族裔、性別、年齡上準確率存在差異,若用於金融產品推薦決策,可能構成算法歧視。 - **金融業法規**:台灣金管會對金融機構使用 AI 輔助業務員銷售行為有相關規範,必須確認此系統的使用符合「公平待客原則」。 - **員工信任問題**:行員可能感到自己也被監控(系統同時錄音錄影),影響員工士氣和勞資關係。

練習 2:應用場景分析與限制評估

以下是四個多模態 AI 的潛在應用場景,請為每個場景填入:使用的模態、最主要的技術挑戰、以及你認為「準備好大規模部署」的程度(高/中/低),並簡述理由:

場景 使用模態 最主要技術挑戰 部署就緒度 理由
A. 食品工廠即時視覺品管:AI 攝影機自動辨識不合格產品,並語音播報「第 3 號產線第 7 號位置發現異物」
B. 課堂學習助理:學生拍下黑板上的數學題,AI 語音解說解題步驟
C. 緊急救護現場輔助:救護員戴上 AR 眼鏡,AI 即時分析傷患狀況畫面並語音提示處置建議
D. 社群媒體內容審核:同時分析貼文圖片和文字說明,偵測仇恨言論
查看答案 **場景 A:食品工廠即時視覺品管** 使用模態:圖片(視覺)→ 文字(辨識結果)→ 聲音(語音播報輸出) 最主要技術挑戰:工廠環境的**即時性要求(低延遲)**——瑕疵偵測從拍攝到語音播報必須在幾百毫秒內完成;同時,不同食品的外觀差異大(同樣的「白色異物」在麵粉廠是正常的,在巧克力廠是問題),需要客製化訓練資料,難以用通用模型。 部署就緒度:**高**。工廠環境可控(固定視角、固定光源、特定產品),針對特定產線的訓練資料容易收集,語音播報可用成熟 TTS,整體技術鏈條成熟,台灣已有多家工廠實際部署類似系統。 --- **場景 B:課堂學習助理(拍黑板解數學)** 使用模態:圖片(黑板拍照)→ 文字(OCR + 數學理解)→ 聲音(語音解說) 最主要技術挑戰:**數學符號的 OCR 準確性**——手寫數學式(分數、根號、上標下標)的辨識錯誤率仍高;加上黑板可能模糊、光線不均、粉筆字潦草;以及多步驟解題的正確性(數學推導一步錯則步步錯)。 部署就緒度:**中**。市面上已有 PhotoMath、Wolfram Alpha 等類似工具,基礎功能成熟;但拍黑板(而非印刷題目)的 OCR 和解說品質仍有差距,且需針對台灣課程內容和教材風格優化,語音解說的自然度也需考量。 --- **場景 C:緊急救護現場 AR 輔助** 使用模態:圖片/影片(AR 眼鏡畫面)→ 文字(內部推理)→ 聲音(語音提示) 最主要技術挑戰:**醫療可靠性要求極高**——AI 的任何誤判都可能直接影響傷患生命;AR 眼鏡在緊急現場(晃動、血跡、光線多變)的影像品質差;延遲容忍度幾乎為零(救護員需要即時指引);加上需要醫療級法規認證(台灣 TFDA 醫療器材審查)。 部署就緒度:**低**。概念已被驗證,但從技術成熟到通過醫療器材法規認證、再到大規模EMT培訓採用,還需要大量臨床驗證和監管審查。目前多處於研究原型階段,不適合作為主要決策依據,只能作為「輔助資訊」提示。 --- **場景 D:社群媒體仇恨言論偵測(圖文聯合)** 使用模態:圖片 + 文字(多模態聯合理解) 最主要技術挑戰:**脈絡理解的複雜性**——圖片和文字的仇恨意涵往往在結合時才出現(例如單獨看圖片是正常手勢,但搭配特定文字說明就有仇恨意涵);語言和文化的細微差異(台灣的政治諷刺迷因需要在地文化知識才能判斷);以及大量的「創意假陽性」——諷刺、幽默、引用可能被誤判。 部署就緒度:**中**。Facebook、YouTube、Twitter 等平台已大規模部署類似系統,技術可行性已驗證;但準確率和誤判率的平衡是持續調整的難題,特別是台灣繁體中文加政治語境的在地化需求,套用英語模型效果差,需要本土化訓練和人工審核的配合機制。

關鍵字自我檢核

✅ 多模態AI ✅ Multimodal AI ✅ CLIP ✅ GPT-4V ✅ Gemini ✅ 跨模態理解 ✅ Cross-modal Understanding ✅ 視覺語言模型 ✅ Vision Language Model ✅ VLM ✅ 早期融合 ✅ Early Fusion ✅ 晚期融合 ✅ Late Fusion ✅ 混合融合 ✅ Hybrid Fusion ✅ 對比學習 ✅ Contrastive Learning ✅ 圖像描述 ✅ Image Captioning ✅ 視覺問答 ✅ VQA ✅ 模態對齊 ✅ Modal Alignment