← AI 動態 2026-04-02 The Decoder

阿里發佈 Qwen3.5-Omni：無須訓練即學會「看片寫程式」，性能超越 Gemini

阿里巴巴推出 Qwen3.5-Omni 全模態模型，除了支援 74 種語言辨識，更展現出能直接根據語音指令與影片內容編寫程式的驚人「無師自通」能力。

阿里巴巴正式發表全模態模型 Qwen3.5-Omni，這款新一代 AI 不僅能同時處理文字、圖像、音訊和影片，在音訊處理任務上的表現甚至超越了 Google 的 Gemini 3.1 Pro。其語音支援能力也從前代的 11 種語言大幅跳升至 74 種，展現出強大的全球化應用潛力。

最令研發團隊驚艷的是，該模型展現了意料之外的「突現能力」：即使沒有經過專門的編程訓練，它竟能直接透過觀看影片畫面並結合語音指令來撰寫程式碼。這意味著 AI 已經能夠跨越不同媒介，理解複雜的視覺邏輯與口語需求。對於一般用戶而言，這預示著未來只需對著電腦描述需求並展示操作過程，AI 就能自動完成開發工作。

值得注意的是，阿里巴巴此次並未延續過往的開源策略，Qwen3.5-Omni 目前僅透過 API 形式提供。這反映出多模態技術已成為科技巨頭競爭的核心，AI 的發展正從單一文字互動，加速轉向更直覺、如同人類感官般的跨媒體理解時代。

查看原文 →

阿里發佈 Qwen3.5-Omni：無須訓練即學會「看片寫程式」，性能超越 Gemini

相關講座