← AI 動態
The Decoder
谷歌推出最自然的 Gemini 3.1 文字轉語音模型,支持 70 多種語言
谷歌發佈了基於 Gemini 3.1 Flash 的新文字轉語音模型,支持 70 多種語言,能夠控制語音的風格、節奏和音調
文字轉語音
語音合成
人工智能
谷歌的 Gemini 3.1 Flash TTS 模型是目前最自然和最富有表達力的文字轉語音模型。該模型支持 70 多種語言,能夠處理多語音對話。開發者可以使用簡單的文字命令控制語音的風格、節奏和音調。這個模型在人工智能分析排名列表中獲得高分,優於 Elevenlabs v3 和 Inworld 1.5 Max。這項技術將對語音助手、自動客服和語音合成等領域產生重大影響。隨著人工智能技術的不斷發展,語音合成技術將變得更加自然和人性化,改善人機交互的體驗。