← AI 動態 The Decoder

微軟 MAI-Transcribe-1 登場:效能快 2.5 倍,每小時語音辨識僅 0.36 美元

微軟發表語音轉文字模型 MAI-Transcribe-1,支援 25 種語言,在精準度上超越 Whisper V3 與 Gemini,並能有效處理噪音與多人重疊對話。

微軟 語音辨識 MAI-Transcribe-1
微軟 MAI-Transcribe-1 登場:效能快 2.5 倍,每小時語音辨識僅 0.36 美元

微軟最新推出的 MAI-Transcribe-1 語音辨識模型,不僅在運算速度上比前代提升了 2.5 倍,更將處理成本大幅降低至每小時音檔僅需 0.36 美元。在權威的 FLEURS 基準測試中,該模型的字錯率(WER)表現優於 OpenAI 的 Whisper-large-V3、GPT-Transcribe 以及 Google 的 Gemini 3.1 Flash-Lite,展現出極強的競爭力。

這項技術的一大亮點在於其強大的環境適應能力。MAI-Transcribe-1 專為應對惡劣的錄音條件而設計,即使在充滿背景噪音、音質低劣或多人同時說話的複雜場景下,仍能保持高精準度的辨識效果。對於需要處理會議記錄、客服音檔或影音字幕的企業與個人開發者而言,這意味著能以更低的預算獲得更穩定、高品質的產出。

目前微軟已將此模型整合至旗下產品中,這標誌著語音 AI 在多模態應用與商業化進程中邁出一大步。高效能、低成本且抗噪能力強的特性,將顯著降低企業導入 AI 語音應用的門檻,推動各行各業數位轉型的效率。