Le società del gruppo

BLOG

I nuovi orizzonti della sintesi vocale (TTS)

By Luca Magnocavallo
set 06, 2022

1280x615.png

La parola è il principale mezzo di comunicazione tra gli uomini, ma ad oggi dialogare con la tecnologia sta diventando sempre più un’abitudine. Molte sono le funzioni che semplificano la vita di ognuno di noi, permettono di ottenere informazioni o compiere azioni quotidiane come ascoltare un audiolibro con le proprie cuffiette.

In particolare la sintesi vocale ha un ruolo fondamentale per l’evoluzione del settore, essa unisce l’Artificial Intelligence ad algoritmi di machine learning e deep learning e permette ​​alla tecnologia di leggere e interpretare un testo scritto o viceversa. Per questo motivo si parla di Text to speech (TTS).

Come funziona la sintesi vocale?

Esempi di TTS sono nella vita di tutti i giorni, tra i più famosi gli assistenti vocali Siri e Alexa. Queste tecnologie sfruttano un sistema di riconoscimento vocale che individua e interpreta la voce dell’utente ed effettua una trascrizione della sua domanda o della sua richiesta. Anche il modo in cui rispondono è grazie ad un sistema che converte serie arbitrarie di parole in un’emissione vocale.

Per saperne di più leggi il nostro articolo “Home assistant una strada senza ritorno. Hai già intrapreso questo percorso?

Quali sono i campi di utilizzo?

Solo nell’ultimo decennio l’applicazione dell’intelligenza artificiale nelle aziende ha registrato una crescita esponenziale.

Secondo uno studio condotto nel 2021 da Dentons, uno dei maggiori studi legali a livello globale, il 60% delle imprese multinazionali utilizza l’intelligenza artificiale, ma di queste solo il 12% sono state delle early adopter, mentre il restante 48% ha iniziato un percorso di innovazione unicamente negli ultimi anni.

grafico.png

Nell’uso di un sintetizzatore vocale, i benefici per le aziende raggiungono molteplici settori di produzione. Oltre agli Home assistant eccone alcuni:

  • Creazione di audiobook / podcast
  • Websites Speech-enabled
  • Game Player Voices
  • Accessibilità (supporto per gli utenti con disabilità per comunicare liberamente)
  • Tools a supporto dell’alfabetizzazione informatica

Il mercato Audiobook e podcast

Schermata 2022-09-05 alle 16.20.00.png

Origine dati

Nell’estate 2021 uno studio condotto dai principali operatori del settore (MPAA, Spotify, Apple), e da società di consulenza (Deloitte, PWC, etc.) ha evidenziato un importante tasso di crescita della domanda di audiolibri. Oltre ad essi, anche un altro formato audio sta acquisendo sempre più popolarità, quello del podcasting. La previsione è che il mercato globale dei podcast aumenterà fino a raggiungere nel 2024 i 2,7 milioni.

É agli occhi di tutti che gli audiolibri e i podcast hanno superato il loro status di "nicchia" per emergere come mercati a pieno titolo. In Italia l’audiolibro sta diventando sempre di più un'abitudine, se prima la spesa per abbonamenti, nel 2019, era pari a 9 milioni, nel 2020 è cresciuta a 17,5 per arrivare nel 2021 a 24 milioni.

L’evoluzione di TTS

In passato si è utilizzato un algoritmo SV2TTS che presentava però delle limitazioni nelle possibilità di personalizzazione ad esempio per la clonazione vocale.

Oggi si è passati all’utilizzo di reti neurali utilizzando un metodo tradizionale a 2 stadi di TTS che segue una struttura simile a un modello di reti neurali convoluzionali (CNN), in breve: un "Mel-Spectrogram" (immagine dell'audio) può essere etichettato con un testo che consente l’attività di classificazione dell'audio. Si utilizzano le stesse tecniche di deep learning che le moderne CNN usano nella computer vision per classificare i gatti rispetto ai cani. Essenzialmente, vengono utilizzate le immagini audio per classificare i suoni. Le tendenze attuali più avanzate nel campo del TTS sembrano essere i Machine Learning Audio Frameworks quali ad esempio ESPnet2 e Tensorflow TTS, ma la realtà è comunque in costante aggiornamento.

Cosa aspettarsi nel futuro

L’obiettivo in futuro è di interagire con le macchine sempre di più tramite la voce attraverso un linguaggio naturale. La possibilità di avere sintetizzatori vocali realistici, in grado di interpretare il testo, di saper trasmettere emozioni, di capire il momento in cui essere simpatico ed empatico, altri dove tenere toni più decisi, potrebbe essere la soluzione a numerosi problemi.

tk. digital ha investito sulla ricerca e sviluppo di tecnologie di punta nel settore TTS, oggi stiamo lavorando sull’implementazione di nuovi progetti in questo ramo.

Se hai interesse a scoprire come il TTS può cambiare il tuo business, contattaci per informazioni.


Contattaci

Inizia oggi il tuo percorso verso l'innovazione.

contattaci per un appuntamento