Approcci di adattamento e codifica del parlante per la formazione, clonazione e generazione audio. Attestazione:arXiv:1802.06006 [cs.CL]
Tramite whitepaper che hanno caricato su arXiv server di prestampa, un team di Baidu (la risposta cinese a Google) ha annunciato un aggiornamento della loro applicazione di sintesi vocale chiamata Deep Voice. Ora, invece di impiegare mezz'ora o più per analizzare la voce di una persona e replicarla, il sistema può farlo in meno di un minuto. Il sistema basato sulla rete neurale fa parte di uno sforzo del team di Baidu per far sembrare le macchine più simili agli umani quando "parlano" con noi.
Ci sono due parti del sistema. Il primo prevede la registrazione di campioni vocali per consentire al sistema di apprendere come suona la voce del soggetto. La seconda parte legge il testo definito dall'utente ad alta voce nella voce del soggetto.
Diversi gruppi hanno lavorato a progetti volti a replicare il suono della voce di una singola persona, apparentemente per consentire agli assistenti robot di sembrare dei veri assistenti umani. Così, un programma che converte il testo in parole che suona come te, il tuo vicino, Donald Trump o la regina d'Inghilterra non dovrebbero offrire molto in termini di prodotto finale, sebbene Baidu suggerisca che potrebbe essere utilizzato da persone che hanno perso l'uso della voce. Anziché, è inteso come un trampolino di lancio per cose più grandi. Il nuovo sistema, riporta la squadra, funziona in modo ottimale quando vengono forniti 100 campioni vocali di cinque secondi. Può anche manipolare una voce, permettendo alle persone di sentire come potrebbero suonare, Per esempio, con accento inglese, o come qualcuno del sesso opposto. Sta anche migliorando nell'imitare le voci, ed è ora in grado di ingannare il software di riconoscimento vocale il 95% delle volte e un test umano ha dato al sistema una valutazione media di 3,16 su 4.
Ma, come molti sulla stampa hanno notato, la tecnologia potrebbe causare problemi. Gli interrogatori registrati dalla polizia potrebbero diventare inutili se qualcuno con uno smartphone potesse generare la stessa conversazione. C'è anche il problema del furto di identità. Se un ladro può rubare i tuoi dati e la tua voce, potresti non riaverlo mai più. Oppure considera gli agenti politici che rilasciano registrazioni false di politici che hanno conversazioni che potrebbero influenzare un'elezione.
© 2018 Tech Xplore