最近,研究人員在 AI 模型的運行上取得了突破性的進展。通過串流專家(streaming experts)的技術,研究人員可以在 RAM 容量有限的硬件上運行大型的 Mixture-of-Experts 模型。這項技術的工作原理是從 SSD 中串流必要的專家權重,以處理每個 token。這意味著可以在普通的電腦或甚至是手機上運行原本需要大量 RAM 的 AI 模型。這項技術的重要性在於它可以使 AI 模型更廣泛地應用於各個領域,尤其是在資源有限的環境中。通過這項技術,研究人員可以繼續優化和改進 AI 模型的性能,推動 AI 技術的進一步發展。