← AI 動態 2026-04-06 The Decoder

阿里巴巴 Qwen 團隊發表全新演算法：讓 AI 具備「深思熟慮」的推理與自檢能力

阿里巴巴 Qwen 團隊研發出新型強化學習演算法，透過為推理過程中的關鍵步驟賦予不同權重，成功讓 AI 思考長度翻倍，並自發學會自主驗證與錯誤修正，顯著提升複雜邏輯處理能力。

傳統的 AI 推理模型在訓練時，往往對生成的每個字元給予相同的獎勵，這使得模型難以分辨哪些步驟才是解決問題的關鍵。Qwen 團隊推出的新演算法打破了這個瓶頸，它能根據每個推理步驟對最終結果的影響程度來分配獎勵。這項技術讓 AI 的「思維鏈」長度增加了一倍，使其在處理問題時不再只是快速產出答案，而是能進行更深層次的邏輯推演。

最重大的突破在於，這種加權獎勵機制讓模型展現出「自發性」的行為。在數學任務測試中，AI 開始學會獨立驗證中間過程，並主動嘗試不同的解題路徑來交叉比對答案。這代表 AI 正在從單純的字詞預測，演進到具備自我監督與邏輯修正能力的智能實體。

對一般使用者來說，這項進展預示著未來的 AI 助手在處理複雜的理科題目、程式編碼或邏輯分析時，將變得更加精準且可靠。雖然目前該演算法主要在數學領域獲得證實，但其展現的推理深度，為生成式 AI 邁向高等通用智能（AGI）提供了重要的技術路徑。

阿里巴巴 Qwen 團隊發表全新演算法：讓 AI 具備「深思熟慮」的推理與自檢能力

相關講座