← AI 動態 The Decoder

阿里發佈 Qwen3.5-Omni:無須訓練即學會「看片寫程式」,性能超越 Gemini

阿里巴巴推出 Qwen3.5-Omni 全模態模型,除了支援 74 種語言辨識,更展現出能直接根據語音指令與影片內容編寫程式的驚人「無師自通」能力。

全模態 AI Qwen3.5 語音編程
阿里發佈 Qwen3.5-Omni:無須訓練即學會「看片寫程式」,性能超越 Gemini

阿里巴巴正式發表全模態模型 Qwen3.5-Omni,這款新一代 AI 不僅能同時處理文字、圖像、音訊和影片,在音訊處理任務上的表現甚至超越了 Google 的 Gemini 3.1 Pro。其語音支援能力也從前代的 11 種語言大幅跳升至 74 種,展現出強大的全球化應用潛力。

最令研發團隊驚艷的是,該模型展現了意料之外的「突現能力」:即使沒有經過專門的編程訓練,它竟能直接透過觀看影片畫面並結合語音指令來撰寫程式碼。這意味著 AI 已經能夠跨越不同媒介,理解複雜的視覺邏輯與口語需求。對於一般用戶而言,這預示著未來只需對著電腦描述需求並展示操作過程,AI 就能自動完成開發工作。

值得注意的是,阿里巴巴此次並未延續過往的開源策略,Qwen3.5-Omni 目前僅透過 API 形式提供。這反映出多模態技術已成為科技巨頭競爭的核心,AI 的發展正從單一文字互動,加速轉向更直覺、如同人類感官般的跨媒體理解時代。