
Dimentica le voci robotiche: Google porta il controllo espressivo del parlato AI a un nuovo livello.
Google DeepMind ha annunciato Gemini 2.5 Flash TTS, il suo nuovo modello audio di ultima generazione. La novità chiave sono i tag audio granulari: istruzioni precise che permettono agli sviluppatori di controllare tono, ritmo, enfasi e stile del parlato generato, quasi come dare indicazioni a un attore. Non si tratta solo di sintesi vocale più naturale, ma di espressività programmabile e riproducibile su larga scala, integrata nell'ecosistema Gemini già usato da milioni di applicazioni.
In pratica: chi costruisce app, podcast AI, assistenti vocali o contenuti automatizzati può finalmente ottenere audio che suona intenzionale, non casuale — e questo cambia tutto per la produzione di contenuti su scala.
Le notizie AI che contano, distillate in 2 minuti.
Gratis, ogni giorno alle 07:00.