• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Presentazione del servizio Cloud Text-to-Speech per sviluppatori

    Credito:CC0 Dominio Pubblico

    Il blog di Google Cloud Platform ha pubblicato un annuncio martedì, introducendo Cloud Text-to-Speech.

    Dan Aharon, Responsabile del prodotto, IA cloud, disse, "Gli sviluppatori ci hanno detto che vorrebbero aggiungere la sintesi vocale alle proprie applicazioni, quindi oggi portiamo questa tecnologia su Google Cloud Platform con Cloud Text-to-Speech."

    Cloud Text-to-Speech è incentrato sulla conversione da testo a voce basata sull'apprendimento automatico.

    Come API, ha affermato il sito Web per Cloud Text-to-Speech, puoi creare interazioni con gli utenti, tra applicazioni e dispositivi. Cloud Text-to-Speech supporta applicazioni o dispositivi che possono inviare una richiesta REST o gRPC. Ciò include telefoni, PC, tablet e dispositivi IoT (ad es. macchine, televisori, Altoparlanti).

    Quali applicazioni reali si applicherebbero? I casi d'uso includono l'automazione del call center e le risposte interattive dai dispositivi IoT.

    Ha affermato che Cloud Text-to-Speech sta già aiutando i clienti a offrire un'esperienza migliore ai propri utenti finali.

    (Robert Hof di SilicioANGOLO ha affermato che "Diverse dozzine di utenti alfa lo hanno provato da novembre.")

    I clienti includono Cisco e Dolphin ONE. Quest'ultimo ha integrato Cloud Text-to-Speech nei suoi prodotti; i loro utenti possono creare "esperienze di call center naturali".

    Che cos'è Google Cloud Platform? Si tratta di una suite di servizi di cloud computing in esecuzione sulla stessa infrastruttura che Google utilizza internamente per prodotti come Ricerca Google e YouTube. Ora, disse Frederic Lardinois in TechCrunch , "Gli sviluppatori avranno accesso allo stesso motore di sintesi vocale sviluppato da DeepMind che l'azienda stessa sta attualmente utilizzando per il suo assistente e per la sua direzione di Google Maps".

    Entra nell'architettura della rete neurale WaveNet, che genera direttamente una forma d'onda audio grezza.

    Aharon ha scritto sul blog, "Cloud Text-to-Speech include anche una selezione di voci ad alta fedeltà create utilizzando WaveNet, un modello generativo per l'audio grezzo creato da DeepMind. WaveNet sintetizza un parlato più naturale e, in media, produce audio vocale che le persone preferiscono rispetto ad altre tecnologie di sintesi vocale."

    Il Cloud Text-to-Speech è dotato di una tecnologia vocale avanzata; La ricerca di Deep Mind sui modelli di apprendimento automatico per generare un discorso che imita le voci umane ha avuto successo. Il discorso suona naturale, e il suo team ha affermato di aver ridotto il divario con le prestazioni umane di oltre il 50%.

    Lardinois ha indicato cosa rende speciale il contributo di WaveNet al discorso:

    "A differenza degli sforzi precedenti, WaveNet non esegue la sintesi vocale basata su una raccolta di brevi frammenti di discorso, che tende a creare il tipo di voci dal suono robotico che sicuramente conosci. Anziché, WaveNet modella l'audio grezzo utilizzando un modello di apprendimento automatico per creare un discorso dal suono molto più naturale."

    Lardinois ha anche fornito una breve storia di WaveNet e di come ha affrontato la fondamentale velocità di risposta.

    "Google ha parlato per la prima volta di WaveNet circa un anno fa. Da allora, ha spostato questi strumenti in una nuova infrastruttura che si trova sopra le unità di elaborazione del tensore dell'azienda. Ciò gli consente di generare queste forme d'onda audio 1, 000 volte più veloce di prima, quindi generare un secondo di audio ora richiede solo 50 millisecondi."

    Consente agli sviluppatori di sintetizzare un discorso dal suono naturale con 30 voci. Inoltre, è disponibile in più lingue e varianti. Il sito ha detto che supporta 32 voci in 12 lingue e varianti.

    (Questo scrittore l'ha provato in due lingue. Sembrava eccellente in entrambi i tentativi.)

    Frederic Lardinois in TechCrunch ha sottolineato che gli sviluppatori saranno in grado di personalizzare il tono, velocità di conversazione e guadagno di volume dei file MP3 o WAV che il servizio genererà.

    Aharon nel blog ha fornito un collegamento per informazioni sui prezzi e per la documentazione.

    © 2018 Tech Xplore




    © Scienza https://it.scienceaq.com