Un nuovo approccio per la sintesi comparativa dei documenti tramite classificazione

Un esempio illustrativo di sintesi comparativa. Le piazze sono articoli di notizie, le righe indicano diverse testate giornalistiche, e l'asse x indica il tempo. Gli articoli ombreggiati sono scelti per rappresentare le notizie relative all'IA durante febbraio e marzo 2018, rispettivamente. Hanno lo scopo di riassumere gli argomenti di ogni mese e anche di evidenziare le differenze tra i due mesi. Credito:Bista et al.

I ricercatori dell'Australian National University (ANU) hanno recentemente condotto uno studio che esplora la sintesi estrattiva in contesti comparativi. Il termine "riassunto estrattivo" definisce il compito di selezionare alcuni articoli altamente rappresentativi da un'ampia raccolta di documenti.

Nella loro carta, pre-pubblicato su arXiv e pronto per essere presentato alla 33a Conferenza AAAI sull'intelligenza artificiale, i ricercatori hanno considerato la sintesi comparativa, che comporta la selezione di documenti da diverse raccolte di documenti. Questi documenti selezionati dovrebbero essere rappresentativi di ciascun gruppo, evidenziando anche le differenze tra i gruppi.

Il progetto segue un tema in corso presso il Computational Media Lab di ANU, che si concentra sulla comprensione automatizzata di grandi quantità di flussi di testo e immagini sul social web. Un obiettivo generale dello studio è identificare le tecniche che potrebbero aiutare le persone a gestire il sovraccarico di informazioni.

"Ci sono troppi nuovi contenuti da leggere per chiunque:notizie, feed dei social media, o anche il flusso di articoli di ricerca arXiv, "Lexing Xie, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "Possiamo chiedere ai computer di aiutarci a scegliere quale leggere, e ricevere comunque informazioni cruciali?"

Xie e i suoi colleghi hanno studiato i modi per riassumere le centinaia di migliaia di articoli di notizie, post e discussioni disponibili online. Il loro scopo è presentare agli utenti alcuni elementi (ad es. 3-4) che meglio rispondono alla domanda "cosa c'è di nuovo?" in un determinato periodo di tempo (ad esempio oggi, questa settimana, ecc.) o riguardanti un particolare argomento (es. cambiamento climatico, elezioni, eccetera.).

"La sintesi del testo è un campo di ricerca attivo da quasi 20 anni, ma l'obiettivo principale è stato quello di riassumere una raccolta in modo estrattivo (cioè selezionare elementi esistenti per comporre un riepilogo), o in modo astratto (cioè componendo nuove frasi come riassunti, piuttosto che utilizzare quelli esistenti), " Xie ha spiegato. "Questo lavoro si concentra sul confronto estrattivo di gruppi di documenti, cioè selezionando alcuni elementi da un gruppo che è più distinto dagli altri gruppi. Al meglio delle nostre conoscenze, il nostro lavoro è il primo a realizzare e convalidare la sintesi comparativa su larga scala."

Nel loro studio, i ricercatori hanno affrontato la sintesi comparativa dei documenti come un compito di classificazione. La classificazione è un compito comune di apprendimento automatico, in cui un algoritmo fa ipotesi plausibili su quale categoria o gruppi appartengono a particolari elementi di dati.

"Nel caso di sintesi comparativa, se abbiamo scelto buoni articoli riassuntivi dovrebbe essere difficile, se non impossibile, progettare un classificatore in grado di distinguere tra gli articoli riassuntivi prescelti ei gruppi di appartenenza; mentre dovrebbe essere facile progettare un classificatore in grado di distinguere tra gli articoli riassuntivi scelti e altri gruppi, "Alessandro Matteo, un altro ricercatore coinvolto nello studio, ha detto a TechXplore.

La prospettiva di classificazione adottata dai ricercatori implica una visione alternativa ma complementare della sintesi comparativa come tre obiettivi in competizione. Primo, gli articoli riassuntivi selezionati dovrebbero essere rappresentativi dei gruppi a cui appartengono, copre tutti gli aspetti importanti della raccolta di documenti.

Secondo, ogni articolo riassuntivo scelto dovrebbe essere relativamente diverso dagli altri, per evitare ripetizioni inutili. Finalmente, gli articoli riassuntivi selezionati dovrebbero essere rappresentativi solo del gruppo a cui appartengono, poiché questo è un fattore chiave per un'efficace sintesi comparativa.

"La nostra formulazione specifica dei tre obiettivi si basa su una misura matematica flessibile chiamata Discrepanza media massima (MMD), Mathews ha spiegato. "Questa misura, insieme all'applicazione di uno strumento matematico chiamato "il trucco del kernel" ci consente di trasformare i nostri tre obiettivi in una forma matematica compatta che possiamo ottimizzare in modo efficiente anche su enormi set di dati. Inoltre, questa forma consente tecniche di ottimizzazione sia discrete che basate su gradiente, permettendo di mettere a punto la scelta degli articoli per raggiungere i nostri obiettivi."

La prospettiva di classificazione adottata da Mathews e dai suoi colleghi ha permesso loro di valutare il loro metodo come un compito di classificazione, sia automaticamente che tramite crowdsourcing. Il loro approccio ha superato gli approcci discreti e di base in 15 su 24 impostazioni di valutazione automatica. Nelle valutazioni di crowdsourcing, i riepiloghi selezionati utilizzando la loro semplice strategia di ottimizzazione basata sul gradiente hanno suscitato una classificazione più accurata del 7% da parte dei lavoratori umani rispetto ai metodi di ottimizzazione discreti.

"Siamo lieti di vedere che utilizzando solo 4 articoli di riepilogo a settimana l'accuratezza della classificazione automatica (di ogni articolo di notizie nel mese/settimana da cui proviene) è alla pari con quella che 'legge' tutti gli articoli, "Minjeong Shin, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "Questo dimostra che nuove informazioni cruciali sono contenute nei pochi articoli 'prototipo'."

I ricercatori hanno valutato il loro metodo rispetto ad altri approcci su una raccolta appena curata di argomenti di notizie controversi che durano oltre 13 mesi. Quando applicato alla sintesi comparativa dei flussi di contenuti in corso, il loro sistema ha risposto con successo a domande come "Cosa c'è di nuovo sul tema del cambiamento climatico questo mese?", evidenziando le differenze tra due distinti periodi di tempo.

"La nostra metodologia si applica anche ai confronti di raccolta diversi dalle notizie nel tempo, " Shin ha detto. "Per esempio, ci si può chiedere:qual è la differenza tra la copertura della BBC e della CNN del vertice del G20, o in che modo differisce la copertura del cambiamento climatico tra i media britannici e australiani?"

Nel futuro, questo nuovo approccio alla sintesi comparativa potrebbe aiutare gli utenti a navigare tra le grandi quantità di informazioni disponibili online; fornire confronti di articoli pubblicati da fonti o autori diversi, nonché di post su argomenti correlati o che esprimono punti di vista distinti. I ricercatori stanno ora lavorando per espandere la loro ricerca portando questi confronti al livello successivo.

"Stiamo studiando modi per riassumere non solo il testo, ma anche immagini e testo insieme, "Umanga Bista, uno dei ricercatori che ha condotto lo studio, ha detto a TechXplore. "Vorremmo anche tenere conto delle relazioni note delle entità menzionate nel testo (ad esempio Delhi è la capitale dell'India), piuttosto che trattare ogni parola come un'entità indipendente. In definitiva, vorremmo avere un sistema che consigli le novità, ciò che è diverso, e cosa vale la pena leggere."

Gli impianti di trattamento delle acque reflue possono diventare bioraffinerie sostenibili

Globalmente, i nuovi impianti di energia solare hanno aggiunto quasi il 35% alla nuova capacità di generazione di energia nel 2017

Elettronica