← AI 動態 The Decoder

新型 Transformer 架構:數學問題需要思考時間,日常知識需要記憶

德國研究團隊開發新型 Transformer 架構,讓模型自主決定思考次數,結合額外記憶,提高數學問題解決能力

Transformer 數學問題 日常知識
新型 Transformer 架構:數學問題需要思考時間,日常知識需要記憶

德國研究團隊提出了一種新型的 Transformer 架構,讓模型能夠自主決定思考次數,結合額外的記憶,來解決數學問題和日常知識任務。這種架構與傳統的 36 層模型相比,只需 12 層就能夠獲得更好的結果,且計算成本相同。在數學問題上,新架構的表現優於傳統模型 6.4%,而在日常知識任務中,記憶銀行的添加有效地彌補了性能差距。這種架構的優勢在於它能夠動態地分配計算資源,讓模型能夠更好地解決需要思考的問題。這項研究對於人工智慧的發展具有重要意義,特別是在需要複雜思考和記憶的任務中。