← AI 動態
The Decoder
Meta 研究打破常規:無標籤影片成 AI 訓練新藍海,單一模型通吃圖文影音
面對高品質文字數據即將耗盡的困境,Meta 與紐約大學研究發現,透過無標籤影片能有效訓練多模態模型,且單一模型即可同時處理理解與生成任務,打破過去技術限制。
多模態模型
Meta FAIR
無標籤資料
隨著高品質文字資料逐漸枯竭,Meta FAIR 團隊提出新解方:利用龐大的「無標籤影片」作為 AI 訓練的新 frontier。這項研究打破了傳統 AI 開發的迷思,證實單一模型可以從零開始同時學習文字、圖像與影片,且不同媒介(模態)之間不會產生干擾,甚至能互相強化。這意味著未來開發者不需要為了「理解影像」和「產生影像」準備兩套系統,一個統一的模型就能搞定。
這項突破對未來 AI 發展至關重要,因為它讓模型能透過影片更深刻地學習物理世界的動態邏輯,而不僅僅是死背文字。雖然研究顯示視覺與語言能力的增長規律並不相同,但這種「全能型」的訓練路徑,為開發更具常識、能處理複雜影音任務的通用人工智慧指引了新方向,也解決了資料短缺的燃眉之急。