← AI 動態 The Decoder

Nvidia 發布 Nemotron 3 Nano Omni:現代多模態模型的幕後故事

Nvidia 發布開源多模態模型 Nemotron 3 Nano Omni,能夠處理文本、圖像、視頻和音頻,為智能應用提供了強大的支持

Nvidia 多模態模型 開源
Nvidia 發布 Nemotron 3 Nano Omni:現代多模態模型的幕後故事

Nvidia 最近發布了 Nemotron 3 Nano Omni,一個開源的多模態模型,能夠處理多種類型的數據,包括文本、圖像、視頻和音頻。這個模型是為了智能應用而設計的,具有強大的學習能力和泛化能力。 Nemotron 3 Nano Omni 的訓練數據來源於多個模型,包括 Qwen、GPT-OSS 和 DeepSeek-OCR,總計 717 億個 token。 Nvidia 不僅發布了模型權重,也提供了部分訓練數據和管道,方便開發者使用和研究。這個模型已經被清晰為商用,開發者可以在自己的項目中使用它。