← AI 動態 2026-04-03 The Decoder

微軟 MAI-Transcribe-1 登場：效能快 2.5 倍，每小時語音辨識僅 0.36 美元

微軟發表語音轉文字模型 MAI-Transcribe-1，支援 25 種語言，在精準度上超越 Whisper V3 與 Gemini，並能有效處理噪音與多人重疊對話。

微軟最新推出的 MAI-Transcribe-1 語音辨識模型，不僅在運算速度上比前代提升了 2.5 倍，更將處理成本大幅降低至每小時音檔僅需 0.36 美元。在權威的 FLEURS 基準測試中，該模型的字錯率（WER）表現優於 OpenAI 的 Whisper-large-V3、GPT-Transcribe 以及 Google 的 Gemini 3.1 Flash-Lite，展現出極強的競爭力。

這項技術的一大亮點在於其強大的環境適應能力。MAI-Transcribe-1 專為應對惡劣的錄音條件而設計，即使在充滿背景噪音、音質低劣或多人同時說話的複雜場景下，仍能保持高精準度的辨識效果。對於需要處理會議記錄、客服音檔或影音字幕的企業與個人開發者而言，這意味著能以更低的預算獲得更穩定、高品質的產出。

目前微軟已將此模型整合至旗下產品中，這標誌著語音 AI 在多模態應用與商業化進程中邁出一大步。高效能、低成本且抗噪能力強的特性，將顯著降低企業導入 AI 語音應用的門檻，推動各行各業數位轉型的效率。

查看原文 →

微軟 MAI-Transcribe-1 登場：效能快 2.5 倍，每小時語音辨識僅 0.36 美元

相關講座