
Il VALL-E di Microsoft imita qualsiasi voce: bastano tre secondi di registrazione

DALL-E è seguito da VALL-E: Microsoft e OpenAI hanno creato una nuova intelligenza artificiale (AI) in grado di imitare le voci. Una registrazione vocale di soli tre secondi dovrebbe essere sufficiente come input per l'IA.
Oggi lo sappiamo: Ciò che le foto o i video mostrano non è necessariamente accaduto in quel modo. Che un testo non debba necessariamente nascere dalla penna di un autore o un'immagine dal pennello di un artista è chiaro fin dai tempi di ChatGPT e DALL-E. Ora è il turno della voce.
VALL-E è un modello di intelligenza artificiale che Microsoft chiama "Neural Codec Language". Permette di creare profili vocali e di imitare la voce corrispondente. Tre secondi di registrazione vocale sono sufficienti all'IA per imitare ciò che sente in modo naturale e con una colorazione emotiva. Può quindi leggere qualsiasi testo con la voce. Anche il suono ambientale della registrazione deve essere preservato. La nuova intelligenza artificiale si presta meglio alle funzioni text-to-speech, che nel migliore dei casi potrebbero consentire di leggere un libro ad alta voce con la voce dell'autore.
Microsoft è consapevole che la tecnologia ha anche un potenziale di abuso. Pertanto, nelle applicazioni future, un protocollo dovrebbe garantire che anche i contenuti creati da VALL-E possano essere riconosciuti come tali.
L'AI fornisce risultati impressionanti con ciò che Microsoft presenta in esempi. Per la sua formazione sono state elaborate 60.000 ore di registrazioni vocali in inglese. Questo equivale a centinaia di volte l'input delle sintesi vocali esistenti.
Puoi ascoltare gli esempi di VALL-E su GitHub ascolta. Oltre all'output vocale di VALL-E, sono disponibili anche le registrazioni dei tre secondi di input (prompt dell'altoparlante). Puoi anche ascoltare come suona il testo inserito pronunciato con la voce originale (Ground Truth). E alla voce Baseline puoi sentire come suona bene la sintesi text-to-speech esistente in confronto. Non è ancora chiaro se, quando e in quale forma sarà possibile utilizzare VALL-E in futuro.
Titelbild: shutterstock

La mia musa ispiratrice si trova ovunque. Quando non la trovo, mi lascio ispirare dai miei sogni. La vita può essere vissuta anche sognando a occhi aperti.
Potrebbero interessarti anche questi articoli
Skeleton Loader
Skeleton Loader