Credito:CC0 Dominio Pubblico
Un team di ricerca guidato da Luis Amaral della Northwestern Engineering ha sviluppato un approccio algoritmico per l'analisi dei dati che riconosce automaticamente le parole non informative, note come stopword, in una vasta raccolta di testo. I risultati potrebbero far risparmiare notevolmente tempo durante l'elaborazione del linguaggio naturale e ridurre il suo impatto energetico.
"Una delle sfide negli approcci di apprendimento automatico e intelligenza artificiale è che non sai quali dati sono utili per un algoritmo e quali sono inutili, " disse Amaral, Erastus Otis Haven Professore di ingegneria chimica e biologica presso la McCormick School of Engineering. "Utilizzando la teoria dell'informazione, abbiamo creato un quadro che rivela quali parole non sono informative per il compito da svolgere."
Il problema con le parole di stop
Una delle tecniche più comuni utilizzate dai data scientist nell'elaborazione del linguaggio naturale è il modello bag-of-words, che analizza le parole in un dato testo senza considerare l'ordine in cui appaiono. Per snellire il processo, i ricercatori filtrano le parole di stop, quelli che non aggiungono alcun contesto all'analisi dei dati. Molti elenchi di parole di arresto sono curati manualmente dai ricercatori, rendendoli dispendiosi in termini di tempo per lo sviluppo e la manutenzione, nonché difficili da generalizzare tra lingue e discipline.
"Immagina di analizzare milioni di post del blog e di voler sapere quale argomento affronta ogni post, " disse Amaral, che codirige il Northwestern Institute on Complex Systems. "Di solito filtreresti parole comuni come 'il' e 'tu, ' che non forniscono alcun background sull'argomento."
Però, la maggior parte delle parole che non sono utili per quel compito specifico dipendono dalla lingua e dall'argomento specifico del blog. "Per una raccolta di blog sull'elettronica, Per esempio, ci sono molte parole che non potrebbero consentire a un algoritmo di determinare se un post sul blog riguarda l'informatica quantistica o i semiconduttori, " Ha aggiunto.
Un quadro teorico dell'informazione
Il team di ricerca ha utilizzato la teoria dell'informazione per sviluppare un modello che identifichi in modo più accurato ed efficiente le parole non significative. Al centro del modello c'è una metrica di "entropia condizionata" che quantifica la certezza di una data parola di essere informativa. Più la parola è informativa, minore è la sua entropia condizionata. Confrontando i valori osservati e attesi dell'entropia condizionale, i ricercatori potrebbero misurare il contenuto informativo di parole specifiche.
Per testare il modello, i ricercatori hanno confrontato le sue prestazioni con approcci di modellazione tematica comuni, che deduce le parole più legate a un determinato argomento confrontandole con altro testo nel set di dati. Questo quadro ha prodotto una migliore accuratezza e riproducibilità tra i testi studiati, pur essendo più applicabile ad altre lingue in modo semplice. Inoltre, il sistema ha ottenuto prestazioni ottimali utilizzando una quantità significativamente inferiore di dati.
"Utilizzando il nostro approccio, potremmo filtrare l'80 percento o più dei dati e aumentare effettivamente le prestazioni degli algoritmi esistenti per la classificazione degli argomenti dei corpora di testo, " Amaral ha detto. "Inoltre, filtrando così tanti dati, siamo in grado di ridurre drasticamente la quantità di risorse computazionali necessarie."
Oltre a risparmiare tempo, il sistema di filtraggio potrebbe portare a risparmi energetici a lungo termine, combattere l'impatto negativo che l'informatica su larga scala ha sui cambiamenti climatici.
Un articolo che descrive il lavoro è stato pubblicato il 2 dicembre sulla rivista Intelligenza della macchina della natura . Amaral era un autore corrispondente sul giornale insieme a Martin Gerlach, un borsista post-dottorato nel laboratorio di Amaral.
Mentre l'analisi dei ricercatori si è limitata ad approcci di parole, Amaral è fiducioso che il suo sistema possa essere ampliato per tenere conto di ulteriori caratteristiche strutturali del linguaggio, comprese frasi e paragrafi.
Inoltre, poiché la teoria dell'informazione fornisce un quadro generale per l'analisi di qualsiasi sequenza di simboli, il sistema dei ricercatori potrebbe essere applicabile oltre l'analisi del testo, supportare i metodi di pre-elaborazione per l'analisi dell'audio, immagini, persino i geni.
"Abbiamo iniziato ad applicare questo approccio all'analisi dei dati provenienti da esperimenti che misurano molecole di RNA gene-specifiche in singole cellule come un modo per identificare automaticamente diversi tipi di cellule, " ha detto Gerlach. "Filtrare i geni non informativi - pensali come "geni di arresto" - è particolarmente promettente per aumentare la precisione. Queste misurazioni sono molto più difficili rispetto ai testi e l'euristica attuale non è altrettanto sviluppata".