← AI 動態 Simon Willison

微軟發佈VibeVoice:一款開源的語音辨識模型

微軟發佈VibeVoice,一款開源的語音辨識模型,具有Whisper-style的功能和MIT許可證

語音辨識 開源模型 微軟
微軟發佈VibeVoice:一款開源的語音辨識模型

微軟於2026年1月21日發佈VibeVoice,一款開源的語音辨識模型。VibeVoice具有Whisper-style的功能,能夠實現語音到文字的轉換,並且具有MIT許可證,允許用戶自由使用和修改。VibeVoice模型還具有speaker diarization的功能,可以自動識別不同的語音和對話者。微軟提供了一個示例代碼,展示如何使用VibeVoice模型進行語音辨識,包括如何下載模型、安裝依賴項和運行模型等步驟。這款模型對於語音辨識和自然語言處理等領域具有重要的意義和應用潛力。