← AI 動態
The Decoder
突破強化學習瓶頸:研究顯示模型深達千層可讓 AI 從跌跌撞撞進化到跑酷等級
普林斯頓與華沙大學團隊成功將強化學習網路擴展至 1,024 層,使 AI 效能提升最高達 50 倍,突破以往深度限制,讓機器人展現出驚人的複雜運動能力。
強化學習
深度學習
機器人運動
在人工智慧的語言與影像處理領域,「規模法則」(Scaling Laws)一直是性能飛躍的關鍵。然而在強化學習(RL)領域,模型深度過去通常被限制在 2 到 5 層,若盲目加深往往會導致訓練不穩定。研究團隊透過特定的網路架構優化,成功將層數推升至 1,024 層,這不僅是技術上的重大突破,更證實了規模效應在強化學習中同樣能引發顯著的性能提升。
這項研究的重要性在於它觀察到了 AI 的「湧現」行為。當網路深度增加,AI 代理不再只是笨拙地原地打轉,而是學會了如跑酷般的複雜避障與運動技能。這對於未來開發具備高度適應性的工業機器人、自動駕駛系統甚至是通用人工智慧(AGI)都有深遠影響。對一般大眾而言,這意味著未來的服務型機器人將能更靈巧地在複雜的人類環境中穿梭,應對各種突發狀況。