← AI 動態
The Decoder
阿里巴巴 Qwen 團隊發表全新演算法:讓 AI 具備「深思熟慮」的推理與自檢能力
阿里巴巴 Qwen 團隊研發出新型強化學習演算法,透過為推理過程中的關鍵步驟賦予不同權重,成功讓 AI 思考長度翻倍,並自發學會自主驗證與錯誤修正,顯著提升複雜邏輯處理能力。
阿里巴巴
Qwen
強化學習
邏輯推理
AI 演算法
傳統的 AI 推理模型在訓練時,往往對生成的每個字元給予相同的獎勵,這使得模型難以分辨哪些步驟才是解決問題的關鍵。Qwen 團隊推出的新演算法打破了這個瓶頸,它能根據每個推理步驟對最終結果的影響程度來分配獎勵。這項技術讓 AI 的「思維鏈」長度增加了一倍,使其在處理問題時不再只是快速產出答案,而是能進行更深層次的邏輯推演。
最重大的突破在於,這種加權獎勵機制讓模型展現出「自發性」的行為。在數學任務測試中,AI 開始學會獨立驗證中間過程,並主動嘗試不同的解題路徑來交叉比對答案。這代表 AI 正在從單純的字詞預測,演進到具備自我監督與邏輯修正能力的智能實體。
對一般使用者來說,這項進展預示著未來的 AI 助手在處理複雜的理科題目、程式編碼或邏輯分析時,將變得更加精準且可靠。雖然目前該演算法主要在數學領域獲得證實,但其展現的推理深度,為生成式 AI 邁向高等通用智能(AGI)提供了重要的技術路徑。