← AI 動態 2026-03-12 The Decoder

Google 發表 Gemini Embedding 2：打破格式限制，實現文字與影音數據的「真．大統一行」

Google 推出首款原生多模態嵌入模型，將文字、影像與音訊整合至單一向量空間，省去繁瑣的轉換步驟並提升 AI 理解力，讓跨媒體檢索與分析變得更直覺且高效。

Google 正式發表 Gemini Embedding 2，這是 AI 處理技術的一大里程碑。過去若要讓 AI 同時理解文字與影片，通常需要多個獨立模型分別處理再進行整合；現在，這款新模型能將文字、圖片、影片、音訊甚至 PDF 文件直接對應到同一個「向量空間」中。這意味著 AI 不再需要先將語音轉成文字（Transcription），就能直接「聽懂」並與其他資訊進行比對。

對企業與開發者來說，這項技術大幅簡化了 AI 應用的開發流程，並將處理上限提升至 8,192 個 Token。這對於構建「多模態 RAG」系統尤為重要，未來我們在搜尋公司內部的影音資料庫時，只需輸入一段文字描述，AI 就能精準抓出影片中對應的秒數或音檔內容。這種如同人類感官般的整合能力，將讓 AI 的反應更精準且具備深度。

Google 發表 Gemini Embedding 2：打破格式限制，實現文字與影音數據的「真．大統一行」

相關講座