Credito:CC0 Dominio Pubblico
Una nuova ricerca dell'Università di Waterloo ha trovato un modo per migliorare le capacità di comprensione delle query vocali delle piattaforme di intrattenimento domestico.
La ricerca, in collaborazione con l'Università del Maryland e Comcast Applied AI Research Lab, utilizza la tecnologia di intelligenza artificiale (AI) per ottenere le interazioni vocali più naturali con i televisori fino ad oggi.
"Oggi, ci siamo abituati a parlare con agenti intelligenti che eseguono i nostri ordini, da Siri su un telefono cellulare ad Alexa a casa. Perché non dovremmo essere in grado di fare lo stesso con i televisori?" ha chiesto Jimmy Lin, professore all'Università di Waterloo e David R. Cheriton Chair alla David R. Cheriton School of Computer Science.
"Xfinity X1 di Comcast mira a fare esattamente questo:la piattaforma è dotata di un 'telecomando vocale' che accetta richieste vocali. Il tuo desiderio è il suo comando:di' alla tua TV di cambiare canale, chiedigli dei film gratuiti per bambini, e anche sulle previsioni del tempo."
Nell'affrontare il complesso problema della comprensione delle query vocali, i ricercatori hanno avuto l'idea di sfruttare la più recente tecnologia di intelligenza artificiale, una tecnica nota come reti neurali ricorrenti gerarchiche, per modellare meglio il contesto e migliorare la precisione del sistema.
A gennaio 2018, il nuovo modello di rete neurale dei ricercatori è stato implementato in produzione per rispondere alle domande degli utenti reali. A differenza del sistema precedente, che è stato confuso da circa l'otto per cento delle query, il nuovo modello gestisce la maggior parte delle query molto complicate in modo appropriato, migliorando notevolmente l'esperienza dell'utente.
"Se uno spettatore chiede 'Chicago Fire, ' che si riferisce sia a una serie drammatica che a una squadra di calcio, il sistema è in grado di decifrare ciò che vuoi veramente, " ha detto Lin. "La particolarità di questo approccio è che sfruttiamo il contesto, come i programmi visti in precedenza e i canali preferiti, per personalizzare i risultati, aumentando così la precisione."
I ricercatori hanno iniziato a lavorare allo sviluppo di un modello ancora più ricco. L'intuizione è che, analizzando le query da più prospettive, il sistema può capire meglio cosa sta dicendo lo spettatore.
La carta, Apprendimento multi-task con le reti neurali per le query vocali Comprendere la piattaforma di intrattenimento, è stato presentato alla 24a Conferenza Internazionale ACM SIGKDD su Knowledge Discovery &Data Mining tenutasi di recente nel Regno Unito. La ricerca è stata intrapresa da Jinfeng Rao, un dottorato di ricerca laureato presso l'Università del Maryland, il suo consigliere Lin, e mentore Ferhan Ture, un ricercatore presso Comcast Applied AI Research Lab.