• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Perché la tecnologia linguistica non è in grado di gestire Game of Thrones (ancora)

    Grande Inverno. Attestazione:mauRÍCIO santos (Unsplash, dominio pubblico)

    I ricercatori della Vrije Universiteit Amsterdam e del Cluster Humanities della Royal Academy olandese hanno valutato quattro strumenti all'avanguardia per riconoscere i nomi nel testo, per valutare e migliorare le loro prestazioni sulla narrativa popolare. Trovano soluzioni per aumentare la capacità degli strumenti di riconoscere i nomi in un romanzo da un'accuratezza del 7% al 90%.

    Gli strumenti di elaborazione del linguaggio naturale (NLP) sono comunemente usati in molte applicazioni quotidiane come Siri e Google, ma l'efficacia di queste tecnologie non è completamente compresa. I ricercatori della Vrije Universiteit Amsterdam e del Cluster di studi umanistici della Royal Academy olandese hanno eseguito una valutazione approfondita di quattro diversi strumenti di riconoscimento del nome su 40 romanzi popolari, compreso Il Trono di Spade. Le loro analisi, pubblicato in Informatica PeerJ , evidenziare tipi di nomi e testi che sono particolarmente difficili da identificare per questi strumenti, nonché soluzioni per mitigarlo. Inoltre, hanno estratto i social network dai romanzi per esplorare le differenze nella struttura della storia. Queste intuizioni possono aiutare a rendere tali tecnologie più robuste rispetto alle differenze di genere, e può aiutare, ad esempio, a rendere questa tecnologia più utile ai giornalisti che desiderano analizzare grandi insiemi di dati come i Panama Papers.

    Molti strumenti di PNL si basano sull'apprendimento automatico; questo è, un programma per computer è addestrato a identificare modelli nel testo sulla base di esempi forniti in precedenza. Per riconoscere i nomi nel testo, viene ad esempio alimentato molti articoli di giornale in cui gli umani hanno meticolosamente segnato i nomi. Il programma ha quindi il compito di "apprendere" l'aspetto di un nome in base al contesto (ad esempio, essendo preceduto da Mr) o la forma della parola (ad esempio i nomi generalmente iniziano con una lettera maiuscola in inglese). Ora, il problema nell'applicare ai romanzi un tale sistema formato sui giornali, è che gli autori di romanzi hanno molta più libertà nella loro narrativa rispetto ai giornalisti che hanno bisogno di attenersi ai fatti. Gli autori di narrativa possono inventare i propri nomi, come Tywin o R'hllor, oppure usa nomi di caratteri descrittivi direttamente dal dizionario come Grey Worm. Questi nomi non si comportano come nomi "normali", quindi i sistemi di PNL hanno difficoltà a riconoscerli in un testo.

    Visualizzazione della rete che mostra che Dany/Daenerys non è vicino ad altri personaggi principali in 'A Game of Thrones'. Credito:N.M. Dekker, CC BY-SA 4.0

    Gli esperimenti eseguiti da Niels Dekker (Trifork B.V.), Tobias Kuhn (Vrije Universiteit Amsterdam) e Marieke van Erp (KNAW Humanities Cluster) evidenziano anche la flessibilità del linguaggio e il modo in cui i nomi sono contestualizzati nelle storie. È ad esempio possibile riferirsi a Daenerys Targaryen come Daenerys e lei, ma è anche conosciuta come Dany, Daenerys nata dalla tempesta, Madre dei Draghi, Khaleesi, gli Incombusti e Mhysa. Il social network creato per A Game of Thrones, illustra ad esempio che Dany è usata dai suoi amici, e il suo nome completo Daenerys solo dai suoi nemici (in sua assenza).

    La ricerca descritta in questa pubblicazione mostra che occorre prestare maggiore attenzione alle prestazioni degli strumenti di PNL e che c'è ancora del lavoro da fare prima che il "testo" possa essere pienamente compreso dai computer.


    © Scienza https://it.scienceaq.com