← AI 動態 The Decoder

谷歌推出最自然的 Gemini 3.1 文字轉語音模型,支持 70 多種語言

谷歌發佈了基於 Gemini 3.1 Flash 的新文字轉語音模型,支持 70 多種語言,能夠控制語音的風格、節奏和音調

文字轉語音 語音合成 人工智能
谷歌推出最自然的 Gemini 3.1 文字轉語音模型,支持 70 多種語言

谷歌的 Gemini 3.1 Flash TTS 模型是目前最自然和最富有表達力的文字轉語音模型。該模型支持 70 多種語言,能夠處理多語音對話。開發者可以使用簡單的文字命令控制語音的風格、節奏和音調。這個模型在人工智能分析排名列表中獲得高分,優於 Elevenlabs v3 和 Inworld 1.5 Max。這項技術將對語音助手、自動客服和語音合成等領域產生重大影響。隨著人工智能技術的不斷發展,語音合成技術將變得更加自然和人性化,改善人機交互的體驗。