La parola è il principale mezzo di comunicazione tra gli uomini, ma ad oggi dialogare con la tecnologia sta diventando sempre più un’abitudine. Molte sono le funzioni che semplificano la vita di ognuno di noi, permettono di ottenere informazioni o compiere azioni quotidiane come ascoltare un audiolibro con le proprie cuffiette.
In particolare la sintesi vocale ha un ruolo fondamentale per l’evoluzione del settore, essa unisce l’Artificial Intelligence ad algoritmi di machine learning e deep learning e permette alla tecnologia di leggere e interpretare un testo scritto o viceversa. Per questo motivo si parla di Text to speech (TTS).
Come funziona la sintesi vocale?
Esempi di TTS sono nella vita di tutti i giorni, tra i più famosi gli assistenti vocali Siri e Alexa. Queste tecnologie sfruttano un sistema di riconoscimento vocale che individua e interpreta la voce dell’utente ed effettua una trascrizione della sua domanda o della sua richiesta. Anche il modo in cui rispondono è grazie ad un sistema che converte serie arbitrarie di parole in un’emissione vocale.
Per saperne di più leggi il nostro articolo “Home assistant una strada senza ritorno. Hai già intrapreso questo percorso?”
Quali sono i campi di utilizzo?
Solo nell’ultimo decennio l’applicazione dell’intelligenza artificiale nelle aziende ha registrato una crescita esponenziale.
Secondo uno studio condotto nel 2021 da Dentons, uno dei maggiori studi legali a livello globale, il 60% delle imprese multinazionali utilizza l’intelligenza artificiale, ma di queste solo il 12% sono state delle early adopter, mentre il restante 48% ha iniziato un percorso di innovazione unicamente negli ultimi anni.
Nell’uso di un sintetizzatore vocale, i benefici per le aziende raggiungono molteplici settori di produzione. Oltre agli Home assistant eccone alcuni:
- Creazione di audiobook / podcast
- Websites Speech-enabled
- Game Player Voices
- Accessibilità (supporto per gli utenti con disabilità per comunicare liberamente)
- Tools a supporto dell’alfabetizzazione informatica
Il mercato Audiobook e podcast
Nell’estate 2021 uno studio condotto dai principali operatori del settore (MPAA, Spotify, Apple), e da società di consulenza (Deloitte, PWC, etc.) ha evidenziato un importante tasso di crescita della domanda di audiolibri. Oltre ad essi, anche un altro formato audio sta acquisendo sempre più popolarità, quello del podcasting. La previsione è che il mercato globale dei podcast aumenterà fino a raggiungere nel 2024 i 2,7 milioni.
É agli occhi di tutti che gli audiolibri e i podcast hanno superato il loro status di "nicchia" per emergere come mercati a pieno titolo. In Italia l’audiolibro sta diventando sempre di più un'abitudine, se prima la spesa per abbonamenti, nel 2019, era pari a 9 milioni, nel 2020 è cresciuta a 17,5 per arrivare nel 2021 a 24 milioni.
L’evoluzione di TTS
In passato si è utilizzato un algoritmo SV2TTS che presentava però delle limitazioni nelle possibilità di personalizzazione ad esempio per la clonazione vocale.
Oggi si è passati all’utilizzo di reti neurali utilizzando un metodo tradizionale a 2 stadi di TTS che segue una struttura simile a un modello di reti neurali convoluzionali (CNN), in breve: un "Mel-Spectrogram" (immagine dell'audio) può essere etichettato con un testo che consente l’attività di classificazione dell'audio. Si utilizzano le stesse tecniche di deep learning che le moderne CNN usano nella computer vision per classificare i gatti rispetto ai cani. Essenzialmente, vengono utilizzate le immagini audio per classificare i suoni. Le tendenze attuali più avanzate nel campo del TTS sembrano essere i Machine Learning Audio Frameworks quali ad esempio ESPnet2 e Tensorflow TTS, ma la realtà è comunque in costante aggiornamento.
Cosa aspettarsi nel futuro
L’obiettivo in futuro è di interagire con le macchine sempre di più tramite la voce attraverso un linguaggio naturale. La possibilità di avere sintetizzatori vocali realistici, in grado di interpretare il testo, di saper trasmettere emozioni, di capire il momento in cui essere simpatico ed empatico, altri dove tenere toni più decisi, potrebbe essere la soluzione a numerosi problemi.
tk. digital ha investito sulla ricerca e sviluppo di tecnologie di punta nel settore TTS, oggi stiamo lavorando sull’implementazione di nuovi progetti in questo ramo.
Se hai interesse a scoprire come il TTS può cambiare il tuo business, contattaci per informazioni.