Credito:CC0 Dominio Pubblico
Il data mining e l'estrazione di conoscenza da fonti disparate sono big data, grande affare. Ma, come fa il software di ricerca a gestire le entità menzionate in cui viene utilizzata solo una parte del loro nome o un nome viene sillabato quando normalmente non lo è? Ricerca pubblicata su Giornale internazionale di informazioni intelligenti e sistemi di database rivela i dettagli di un nuovo approccio per migliorare il riconoscimento e la disambiguazione delle entità nominate nei titoli delle notizie.
Jayendra Barua e Rajdeep Niyogi del Dipartimento di Informatica e Ingegneria, all'Indian Institute of Technology, a Roorkee, Uttarakhand, India, spiegare che il loro approccio a tale analisi dei titoli delle notizie attuali si basa su un algoritmo addestrato a cui è stato insegnato per rimuovere i trattini e completare i nomi incompleti per rimuovere l'ambiguità.
La valutazione del team del loro nuovo approccio mostra che funziona con circa il 10% di precisione in più rispetto ai sistemi convenzionali e quindi potrebbe migliorare il recupero automatico delle notizie associate a particolari aziende, organizzazioni, eventi, figure pubbliche, e altre entità di interesse per coloro che estraggono le notizie. Il sistema funziona bene con i newsfeed, come il tipo RSS di newsfeed generato da siti web regolarmente aggiornati. I titoli provenienti da tali fonti potrebbero essere generalmente più lunghi dei titoli dei giornali convenzionali, ma sono comunque concisi, generalmente sono lunghe dieci parole o meno. Ogni parola potrebbe quindi essere importante in un contesto di data mining e quindi la disambiguazione è fondamentale.