← AI 動態 2026-03-01 The Decoder

語言模型訓練遺漏了網際網路的許多部分

研究人員發現，語言模型訓練中使用的HTML抽取工具會導致訓練數據集的差異

語言模型主要從網際網路的文字數據中學習語言、事實和技能。然而，在訓練語言模型之前，需要從每個網頁的HTML代碼中抽取文字。研究人員發現，三種常見的HTML抽取工具會抽取出不同的網頁內容。這意味著語言模型可能會遺漏網際網路的許多部分，導致訓練數據集的差異。這個發現對於語言模型的訓練和應用有重要的影響，尤其是在需要從網際網路中學習和抽取知識的任務中。

語言模型訓練遺漏了網際網路的許多部分

相關講座