Credito:CC0 Dominio pubblico
E-mail di spam, frode bancaria, diabete, lavoratori che lasciano il lavoro. Cosa hanno in comune questi temi? La risposta può essere trovata nella ricerca sull'apprendimento automatico presso la Binghamton University.
Dana Bani Hani, uno studente di dottorato in ingegneria industriale e dei sistemi, ha passato gli ultimi anni a insegnare alle macchine come leggere i set di dati in qualsiasi settore. Il sistema che ha codificato, chiamato Recursive General Regression Neural Network Oracle (R-GRNN Oracle), prende input di dati e crea output di previsione.
I modelli di regressione non sono nuovi nella scienza e nell'analisi dei dati, ma ciò che Bani-Hani ha creato va oltre le basi. Un tipico sistema utilizza algoritmi, chiamati classificatori, che attraversano un set di dati di molte variabili diverse per creare una previsione. Gli oracoli vengono creati per eseguire più set di questi classificatori per vedere quale algoritmo crea la previsione più accurata.
Per esempio, un classificatore può esaminare una miriade di e-mail e tenere in considerazione l'uso di determinate parole, conteggio delle parole e diverse altre variabili per determinare se l'e-mail è spam. Un oracolo esamina i diversi output del classificatore e determina quale ha previsto in modo più accurato le e-mail di spam.
Ciò che distingue l'oracolo R-GRNN dagli altri oracoli è la sua capacità di prendere gli output del classificatore e classificarli in base alla loro accuratezza. In base alla classifica, ai classificatori vengono assegnati pesi e vengono combinati per produrre una previsione superiore a qualsiasi classificatore da solo.
Pensa a questo processo come a un'orchestra. Ogni strumento ha i suoi punti di forza, proprio come diversi classificatori, quindi è utile includerli tutti. Il conduttore, come l'oracolo R-GRNN, dirige i diversi strumenti a suonare ad alta voce o più piano in base a come lo strumento emette il suono sinfonico finale.
A questo punto, il sistema sarebbe chiamato rete neurale di regressione generale (GRNN), che è stato creato prima alla Binghamton University. Il vero punto cruciale del lavoro di Bani-Hani sta nella prima lettera, R, in piedi per ricorsione.
L'oracolo R-GRNN prende l'output GRNN originale, e utilizza l'intero sistema come input per un'altra previsione GRNN. Questo è combinato con il maggior successo dei classificatori originali.
Così, torna all'orchestra:la sinfonia originale viene registrata, e poi riprodotto più tardi. Questa volta, insieme alla registrazione, alcuni strumenti suonano di nuovo per mettere a punto ulteriormente i suoni importanti dell'orchestra.
"A causa del modo in cui [il GRNN] funziona, Sono stato in grado di creare il modello ricorsivo, " Dice Bani-Hani. "Il concetto di ricorsione non è ampiamente utilizzato nell'apprendimento automatico, così ho deciso di mettere un oracolo all'interno di un oracolo."
Mohammad Khasawneh, professore e cattedra di scienze dei sistemi e ingegneria industriale, supervisionato la ricerca di Bani-Hani. Dice che sistemi come GRNN e R-GRNN sono sottoutilizzati e sono vitali in eventi di vita gravi.
"Il tradizionale GRNN Oracle ha ricevuto un'attenzione limitata in letteratura poiché solo pochissimi ricercatori hanno pubblicato lavori sull'algoritmo, " Khasawneh dice. "Ma molti problemi della vita reale che applicano modelli di apprendimento automatico per automatizzare la classificazione di osservazioni sconosciute richiedono previsioni accurate. Compiti come la diagnosi di malattie richiedono precisione per evitare problemi seri che potrebbero potenzialmente portare a problemi come cause legali o persino decessi".
Bani-Hani afferma che l'R-GRNN Oracle produce previsioni più accurate rispetto a qualsiasi singolo classificatore da solo, così come un GRNN da solo. L'R-GRNN Oracle ha raccolto migliaia di campioni di posta elettronica, programmato per fattorizzare 57 variabili, e quindi ha prodotto una previsione dello spam superiore a tutti gli altri classificatori testati.
Bani-Hani ha anche utilizzato l'R-GRNN per prevedere le frodi nelle applicazioni di carte di credito, diagnosi del diabete e se un lavoratore smetterà in base alle precedenti esperienze lavorative. In ogni caso, l'R-GRNN è risultato il predittore più accurato.
Ha intenzione di concentrare il suo modello su campi specifici, come affari o finanza, oltre a confezionare sia GRNN Oracle che R-GRNN Oracle in modo che le aziende non debbano creare l'intero codice da zero.
Il viaggio di Bani-Hani verso la ricerca sull'apprendimento automatico è iniziato quasi 6, 000 miglia di distanza da Binghamton in Giordania. Dopo aver conseguito la laurea in ingegneria architettonica, ha sentito parlare della Binghamton University attraverso la facoltà della Watson School e i leader accademici, e dai suggerimenti solidali di suo padre. Inizialmente ha conseguito un master in ingegneria industriale, ma ha presto scoperto una nuova passione:il data mining e il machine learning.
"Ottenere un dottorato di ricerca è stato il mio sogno negli ultimi 15 anni, " Bani-Hani dice. "Attribuisco principalmente questo all'avere una famiglia con lauree avanzate. Sono grato ai miei professori qui alla Binghamton University per avermi introdotto agli argomenti che costituiscono la mia ricerca".