Un gruppo di ricerca presso l'Istituto Nazionale di Informatica (NII/Tokyo, Giappone) tra cui Xin Wang, Shinji Takaki e Junichi Yamagishi hanno sviluppato un modello di filtro della sorgente neurale (NSF) per l'alta velocità, sintesi vocale di alta qualità. Questa tecnica, che combina recenti algoritmi di deep learning e un classico modello di produzione vocale risalente agli anni '60, è in grado non solo di generare forme d'onda vocali di alta qualità molto simili alla voce umana, ma anche di condurre un apprendimento stabile tramite reti neurali.
Ad oggi, molti sistemi di sintesi vocale hanno adottato l'approccio vocoder, un metodo per sintetizzare le forme d'onda del parlato ampiamente utilizzato nelle reti di telefoni cellulari e in altre applicazioni. Però, la qualità delle forme d'onda del parlato sintetizzate con questi metodi è rimasta inferiore a quella della voce umana. Nel 2016, un'influente azienda tecnologica estera ha proposto WaveNet, un metodo di sintesi vocale basato su algoritmi di deep learning, e ha dimostrato la capacità di sintetizzare forme d'onda del parlato di alta qualità simili alla voce umana. Però, uno svantaggio di WaveNet è la struttura estremamente complessa delle sue reti neurali, che richiedono grandi quantità di dati vocali per l'apprendimento automatico e richiedono la sintonizzazione dei parametri e varie altre laboriose procedure per tentativi ed errori da ripetere molte volte prima di poter ottenere previsioni accurate.
Panoramica e risultati della ricerca
Uno dei vocoder più conosciuti è il vocoder del filtro sorgente, che è stato sviluppato negli anni '60 e rimane oggi ampiamente utilizzato. Il team di ricerca NII ha infuso il metodo convenzionale del vocoder con filtro sorgente con moderni algoritmi di rete neurale per sviluppare una nuova tecnica per sintetizzare forme d'onda del parlato di alta qualità simili alla voce umana. Tra i vantaggi di questo metodo di filtro della sorgente neurale (NSF) c'è la semplice struttura delle sue reti neurali, che richiedono solo circa un'ora di dati vocali per l'apprendimento automatico e possono ottenere risultati predittivi corretti senza un'ampia ottimizzazione dei parametri. Inoltre, test di ascolto su larga scala hanno dimostrato che le forme d'onda del parlato prodotte dalle tecniche NSF sono di qualità paragonabile a quelle generate da WaveNet.
Poiché la base teorica della NSF differisce dalle tecnologie brevettate utilizzate da influenti aziende ICT estere, è probabile che l'adozione di tecniche NSF stimolerà nuovi progressi tecnologici nella sintesi vocale. Per questa ragione, il codice sorgente che implementa il metodo NSF è stato reso disponibile al pubblico gratuitamente, permettendogli di essere ampiamente utilizzato.