← AI 動態 The Decoder

Google 發表 Gemini Embedding 2:打破格式限制,實現文字與影音數據的「真.大統一行」

Google 推出首款原生多模態嵌入模型,將文字、影像與音訊整合至單一向量空間,省去繁瑣的轉換步驟並提升 AI 理解力,讓跨媒體檢索與分析變得更直覺且高效。

多模態 AI Google Gemini 向量嵌入
Google 發表 Gemini Embedding 2:打破格式限制,實現文字與影音數據的「真.大統一行」

Google 正式發表 Gemini Embedding 2,這是 AI 處理技術的一大里程碑。過去若要讓 AI 同時理解文字與影片,通常需要多個獨立模型分別處理再進行整合;現在,這款新模型能將文字、圖片、影片、音訊甚至 PDF 文件直接對應到同一個「向量空間」中。這意味著 AI 不再需要先將語音轉成文字(Transcription),就能直接「聽懂」並與其他資訊進行比對。

對企業與開發者來說,這項技術大幅簡化了 AI 應用的開發流程,並將處理上限提升至 8,192 個 Token。這對於構建「多模態 RAG」系統尤為重要,未來我們在搜尋公司內部的影音資料庫時,只需輸入一段文字描述,AI 就能精準抓出影片中對應的秒數或音檔內容。這種如同人類感官般的整合能力,將讓 AI 的反應更精準且具備深度。