← AI 動態
The Decoder
Hume AI 開源 TADA 語音模型:速度快 5 倍且達成零幻覺,精準對齊技術革新對話體驗
Hume AI 宣布開源語音生成模型 TADA,透過文本與音訊同步處理技術,運算速度比同類模型快五倍,且在千次測試中達成零幻覺、不漏字的驚人精準度,大幅提升語音合成的可靠性。
Hume AI
語音生成
開源模型
這項名為 TADA 的技術核心在於其獨特的同步映射機制。傳統的語音生成系統在處理文本標記(Text Token)時,往往需要產生過量的音訊幀,這不僅耗費運算資源,也容易導致生成的內容與原意偏差,產生所謂的「幻覺」。TADA 則實現了文本與音訊信號的一對一精準對齊,讓系統在測試中達成完全沒有錯誤添加或遺漏單詞的優異表現。
對開發者而言,TADA 採 MIT 協議開放原始碼,且其模型架構精簡,足以在小型設備上流暢運行。這意味著未來在智慧家居或行動裝置上,我們能獲得更即時、精確且聽起來更像真人的語音互動。在千餘項樣本測試中,其自然度評分高達 3.78,顯示在追求極致速度與精準度的同時,並未犧牲語音的人性化表現,為多模態 AI 應用樹立了新標竿。