Da sinistra a destra, Ray Ptucha, professore assistente di ingegneria informatica, Robbie Jimerson, dottorando in informatica, entrambi da RIT, ed Emily Prud'hommeaux, professore assistente di informatica, stanno guidando il progetto NSF per utilizzare la tecnologia di intelligenza artificiale per preservare la lingua Seneca. Credito:A. Sue Weisler/RIT
Un nuovo progetto di ricerca presso il Rochester Institute of Technology contribuirà a garantire la preservazione della lingua in via di estinzione della nazione indiana Seneca. Utilizzando l'apprendimento profondo, una forma di intelligenza artificiale, I ricercatori del RIT stanno costruendo un'applicazione di riconoscimento vocale automatico per documentare e trascrivere la lingua tradizionale del popolo Seneca. L'opera vuole essere anche una risorsa tecnologica per preservare altri linguaggi rari o in via di estinzione.
"La motivazione per questo è personale. Il primo passo nella conservazione e rivitalizzazione della nostra lingua è la sua documentazione, " ha detto Robert Jimerson (Seneca), uno studente di dottorato in informatica e scienze dell'informazione al RIT e membro del gruppo di ricerca. Ha riunito anziani tribali e amici intimi, tutti oratori di Seneca, per aiutare a produrre documentazione audio e testuale di questa lingua dei nativi americani parlata fluentemente da meno di 50 persone.
Come tutte le lingue, Seneca ha diversi dialetti. Presenta anche sfide uniche a causa del suo sistema complesso per la costruzione di nuove parole, in cui un'intera frase può essere espressa in una sola parola.
Jimerson è in grado di collegare sia la tecnologia che il linguaggio.
"Sotto il cappuccio, sono dati. Con molte lingue native, non hai quel volume di dati, " Egli ha detto, spiegando che alcune lingue, mentre si parla, potrebbero non avere tanti strumenti linguistici formali:dizionari, materiali grammaticali o classi estese per non madrelingua, simili a quelli per lo spagnolo o il cinese. "Uno dei processi più costosi e dispendiosi in termini di tempo per documentare il linguaggio è raccoglierlo e trascriverlo. Stiamo cercando di prendere reti profonde e forse cambiare l'architettura, fare alcuni dati sintetici per creare più dati, ma come si fa a far funzionare questo in deep learning? Come aumenti i dati che hai già?"
Quel processo di acquisizione dei dati è coordinato da un ampio team che include Jimerson; la ricercatrice principale del progetto Emily Prud'hommeaux, assistente professore di informatica presso il Boston College e facoltà di ricerca presso il College of Liberal Arts del RIT; Ray Ptucha, assistente professore di ingegneria informatica al Kate Gleason College of Engineering del RIT ed esperto di sistemi e tecnologie di deep learning; e Karen Michaelson, professore di linguistica, la State University di New York a Buffalo. Il team di ricerca ha ricevuto $ 181, 682 nel finanziamento di oltre quattro anni dalla National Science Foundation per "Ricerca collaborativa:riconoscimento vocale di apprendimento profondo per il documento Seneca e altre lingue con scarse risorse".
"Questo è un progetto entusiasmante perché riunisce persone di così tante discipline e background, dall'ingegneria e informatica alla linguistica e alla pedagogia linguistica, " ha affermato Prud'hommeaux. "Oltre a consentirci di sviluppare una tecnologia all'avanguardia, questo progetto supporta studenti universitari e laureati e coinvolge i membri di una comunità indigena che poche persone sanno essere proprio qui nella parte occidentale di New York".
I ricercatori hanno avviato il progetto a fine giugno, riunendo i membri della comunità e i linguisti per la raccolta dei dati, l'acquisizione e la traduzione di dati attuali e nuovi, registrazioni originali delle conversazioni di Seneca e poi convertire i dati in output testuale utilizzando modelli di deep learning.
"Quello che stai veramente cercando di fare è trovare quella linea tra i nuovi dati che puoi ottenere e il cambiamento dell'architettura di una rete, "Ha spiegato Jimerson.
Dall'estate, il team ha poco più di 50 ore di materiale registrato con persone che lavorano a tempo pieno sulle traduzioni che includono la scomposizione della lingua in singoli simboli fonetici e l'utilizzo di queste informazioni per iniziare ad addestrare i modelli.
"Utilizziamo un processo chiamato apprendimento per trasferimento che inizia con un modello addestrato con un linguaggio inglese prontamente disponibile per ottenere le nozioni di base, formazione iniziale per il sistema, poi riaddestreremo le reti neurali e le metteremo a punto verso il linguaggio Seneca. Stiamo ottenendo ottimi risultati, " disse Ptucha, che è un esperto in sistemi e tecnologie di deep learning. La tecnologia di deep learning è costituita da più strati di neuroni artificiali, organizzati in una gerarchia sempre più astratta. Queste architetture hanno prodotto risultati all'avanguardia su tutti i tipi di problemi di riconoscimento dei modelli, comprese le applicazioni di riconoscimento vocale e di immagini.
"Nessuno ha davvero provato questo prima, addestrare un modello di riconoscimento vocale automatizzato su qualcosa con risorse limitate come Seneca. Robbie è l'esperto nella trascrizione di Seneca e nell'addestramento degli altri su come farlo. È un ragazzo piuttosto raro, " disse Ptucha,
Questo progetto attuale è una continuazione del lavoro di Jimerson per espandere le risorse linguistiche a disposizione della sua comunità. Nel 2013, mentre era uno studente laureato al Golisano College of Computing and Information Sciences del RIT, ha sviluppato un dizionario di traduzione online della lingua Seneca per il Programma di rivitalizzazione della lingua Seneca. Il progetto è stato finanziato dalla Seneca Nation e assegnato al Future Steward's Program del RIT.