← AI 動態
The Decoder
阿里 Qwen 團隊推出 HopChain 框架,解決視覺 AI 邏輯推理「步步錯」痛點
阿里巴巴 Qwen 團隊研發 HopChain 框架,旨在解決視覺語言模型在多步驟推理時,因初始小錯誤導致最終失敗的問題,透過分解任務與強化驗證提升 AI 推理的準確性。
多模態 AI
視覺推理
Alibaba Qwen
目前的視覺語言模型(VLM)在處理複雜圖像任務時,常因最初的一點「看錯」(如數錯物件數量或誤判空間方位)而引發連鎖反應,導致最終答案全盤皆錯。阿里 Qwen 團隊與清華大學開發的 HopChain 框架,正是為了解決這種「推理鏈崩潰」。它能自動將複雜的視覺問題拆解成多個關聯的小步驟,要求模型在進入下一步前先驗證當下的視覺資訊,確保邏輯鏈條的每一環都正確穩固。
這項技術顯著提升了多模態 AI 在現實場景中的可靠性。對一般使用者來說,這意味著未來的 AI 助理在分析複雜圖表、判讀監視影像或協助維修設備時,能提供更具邏輯且精準的判斷,而不僅僅是模糊的「看圖說故事」。這縮短了 AI 與人類在理解複雜視覺任務上的差距,讓 AI 更有能力處理需要高精密邏輯的專業任務。