← AI 動態 The Decoder

AI2 推出 MolmoWeb:一個僅憑螢幕截圖就能瀏覽網頁的開源網路代理

MolmoWeb 是一個開源網路代理,可以使用螢幕截圖來瀏覽網頁,無需存取原始碼或頁面結構

AI 開源 網路代理 螢幕截圖
AI2 推出 MolmoWeb:一個僅憑螢幕截圖就能瀏覽網頁的開源網路代理

MolmoWeb 是由 Allen Institute for AI 開發的,它可以使用螢幕截圖來瀏覽網頁,無需存取原始碼或頁面結構。這個模型是在一個大型的公開資料庫上訓練的,結合了人類瀏覽記錄、自動生成的執行記錄和數百萬個螢幕截圖-問題-答案對。雖然 MolmoWeb 的模型大小相對較小,但它仍然能夠超越現有的最佳開源模型,在所有測試的基準上表現出色,並且接近於專有的系統的表現。這個技術可能會對網頁瀏覽和自動化產生重大影響。 MolmoWeb 的開源性質也使得開發人員可以自由使用和修改這個模型,從而推動相關技術的進一步發展。未來,MolmoWeb 可能會被應用於各種領域,例如網頁自動化、網頁測試和資料採集等