← AI 動態 2026-03-27 The Decoder

Mistral 首款開源語音模型 Voxtral 問世：僅需 3 秒音訊即可精準複製人聲

法國 AI 巨頭 Mistral 推出開源語音合成模型 Voxtral，支援九種語言。該模型僅需 3 秒參考音訊即可達成高品質語音複製，且在自然度測試中超越 ElevenLabs。

Mistral AI 推出的 Voxtral TTS 是一款擁有 40 億參數的輕量化語音模型。它最大的特色在於極高的效率與靈活性，目前支援包括英、德、法、西在內的九種語言，且僅需 3 秒的短暫音訊即可快速「克隆」特定人聲。其延遲表現極佳，在處理標準文本時僅約 70 毫秒，這使得即時語音對話與互動應用變得更加可行。

這項技術的重要性在於其「開源權重」的特性，打破了過去高品質語音合成技術多由少數閉源服務商壟斷的局面。對於開發者或企業而言，這意味著能以更低成本建構個人化的語音助理或多語種內容創作工具。儘管這也引發了語音詐騙的安全疑慮，但 Voxtral 的出現無疑推動了多模態生成技術的普及，讓語音生成進化到具備情感表達能力的擬真層次。

Mistral 首款開源語音模型 Voxtral 問世：僅需 3 秒音訊即可精準複製人聲

相關講座