• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Titoli con trattino di data mining:miglioramento del riconoscimento delle entità denominate

    Credito:CC0 Dominio Pubblico

    Il data mining e l'estrazione di conoscenza da fonti disparate sono big data, grande affare. Ma, come fa il software di ricerca a gestire le entità menzionate in cui viene utilizzata solo una parte del loro nome o un nome viene sillabato quando normalmente non lo è? Ricerca pubblicata su Giornale internazionale di informazioni intelligenti e sistemi di database rivela i dettagli di un nuovo approccio per migliorare il riconoscimento e la disambiguazione delle entità nominate nei titoli delle notizie.

    Jayendra Barua e Rajdeep Niyogi del Dipartimento di Informatica e Ingegneria, all'Indian Institute of Technology, a Roorkee, Uttarakhand, India, spiegare che il loro approccio a tale analisi dei titoli delle notizie attuali si basa su un algoritmo addestrato a cui è stato insegnato per rimuovere i trattini e completare i nomi incompleti per rimuovere l'ambiguità.

    La valutazione del team del loro nuovo approccio mostra che funziona con circa il 10% di precisione in più rispetto ai sistemi convenzionali e quindi potrebbe migliorare il recupero automatico delle notizie associate a particolari aziende, organizzazioni, eventi, figure pubbliche, e altre entità di interesse per coloro che estraggono le notizie. Il sistema funziona bene con i newsfeed, come il tipo RSS di newsfeed generato da siti web regolarmente aggiornati. I titoli provenienti da tali fonti potrebbero essere generalmente più lunghi dei titoli dei giornali convenzionali, ma sono comunque concisi, generalmente sono lunghe dieci parole o meno. Ogni parola potrebbe quindi essere importante in un contesto di data mining e quindi la disambiguazione è fondamentale.


    © Scienza https://it.scienceaq.com