← AI 動態 2026-03-09 The Decoder

Meta 研究打破常規：無標籤影片成 AI 訓練新藍海，單一模型通吃圖文影音

面對高品質文字數據即將耗盡的困境，Meta 與紐約大學研究發現，透過無標籤影片能有效訓練多模態模型，且單一模型即可同時處理理解與生成任務，打破過去技術限制。

隨著高品質文字資料逐漸枯竭，Meta FAIR 團隊提出新解方：利用龐大的「無標籤影片」作為 AI 訓練的新 frontier。這項研究打破了傳統 AI 開發的迷思，證實單一模型可以從零開始同時學習文字、圖像與影片，且不同媒介（模態）之間不會產生干擾，甚至能互相強化。這意味著未來開發者不需要為了「理解影像」和「產生影像」準備兩套系統，一個統一的模型就能搞定。

這項突破對未來 AI 發展至關重要，因為它讓模型能透過影片更深刻地學習物理世界的動態邏輯，而不僅僅是死背文字。雖然研究顯示視覺與語言能力的增長規律並不相同，但這種「全能型」的訓練路徑，為開發更具常識、能處理複雜影音任務的通用人工智慧指引了新方向，也解決了資料短缺的燃眉之急。

Meta 研究打破常規：無標籤影片成 AI 訓練新藍海，單一模型通吃圖文影音

相關講座