• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  •  science >> Scienza >  >> Fisica
    Testi come reti:quante parole sono sufficienti per identificare un autore?

    L'autore di un testo non firmato può essere individuato analizzando il rapporto tra poche parole del testo, come dimostrato dai fisici-statistici dell'Istituto di fisica nucleare dell'Accademia polacca delle scienze di Cracovia. (Fonte:IFJ PAN) Credito:IFJ PAN

    Le persone sono più originali di quanto pensino:questo è suggerito da un metodo di analisi del testo letterario della stilometria proposto dagli scienziati dell'Istituto di fisica nucleare dell'Accademia polacca delle scienze. L'individualità dell'autore può essere vista nelle connessioni tra non più di una dozzina di parole in un testo inglese. Si scopre che nelle lingue slave, l'identificazione dell'autore richiede ancora meno parole, ed è più certo.

    I ricercatori hanno cercato una soluzione al problema della verifica della paternità di testi storici noti solo per frammenti, l'identificazione del plagio, e problemi simili. In molti casi, i metodi stilometrici tradizionali falliscono o non portano a conclusioni sufficientemente affidabili. In Scienze dell'informazione , gli scienziati dell'Istituto di fisica nucleare dell'Accademia polacca delle scienze (IFJ PAN) di Cracovia presentano ora il proprio strumento statistico per l'analisi stilometrica. Costruito con l'uso di grafici, analizza la struttura dei testi in modo qualitativamente nuovo.

    "Le conclusioni della nostra ricerca sono, da una parte, incoraggiante. Indicano che l'individualità di ogni persona si manifesta chiaramente nel modo in cui usa un numero sorprendentemente piccolo di parole. Ma c'è anche un lato oscuro. Dal momento che si scopre che le persone sono così originali, sarà più facile identificare gli individui dalle loro dichiarazioni, " afferma il professor Stanislaw Drozdz dell'Università di tecnologia di Cracovia.

    stilometria, la scienza che si occupa delle caratteristiche statistiche dello stile dei testi, si basa sull'osservazione che ogni persona usa la stessa lingua in modi leggermente diversi. Alcuni hanno un vocabolario più ampio, altri più stretti, alcuni preferiscono certe frasi e commettono errori, altri evitano la ripetizione e sono puristi linguistici. E nel testo scritto, differiscono anche nel modo in cui usano la punteggiatura. Nel tipico approccio stilometrico, le caratteristiche di base di un testo sono di solito esaminate, compresa la frequenza di occorrenza delle singole parole, mentre la punteggiatura viene ignorata. Le analisi vengono effettuate per il testo studiato e per testi scritti da autori potenzialmente noti. Si considera autore colui le cui opere hanno parametri con i valori più prossimi a quelli ottenuti per il materiale oggetto di individuazione.

    "Abbiamo suggerito che i tratti caratteristici dello stile potessero essere rappresentati in una rappresentazione in rete del testo, utilizzando grafici, " spiega Tomasz Stanisz, dottorato di ricerca studente dell'IFJ PAN e primo autore della pubblicazione. "Il grafico è un insieme di punti o vertici sul grafico, collegati da linee, cioè i bordi del grafico. Nel caso più semplice - nella cosiddetta rete non pesata - i vertici corrispondono a singole parole e sono collegati da archi se e solo se due parole date sono accadute adiacenti l'una all'altra almeno una volta nel testo. Per esempio, per la frase "Jane ha fame, ' il grafico avrebbe tre vertici, uno per ogni parola, ma ci sarebbero solo due bordi, uno tra 'Jane' e 'è, ' l'altro tra 'è' e 'affamato.'"

    Durante la costruzione dei loro strumenti stilometrici, i ricercatori hanno testato diversi tipi di grafici. I migliori risultati sono stati ottenuti per i grafici pesati, questo è, quelli in cui ogni arco porta informazioni sul numero di occorrenze della sua corrispondente connessione tra le parole. Due parametri si sono rivelati i più utili in tali reti:il grado del nodo e il coefficiente di clustering. Il primo descrive il numero di archi provenienti da un dato nodo ed è direttamente correlato al numero di occorrenze di una data parola nel testo. A sua volta, il coefficiente di clustering descrive la probabilità che due parole connesse da un arco con una data parola siano anche connesse con un arco tra di loro.

    Utilizzando strumenti statistici così preparati, i fisici di Cracovia hanno esaminato 96 libri:sei romanzi di otto noti autori inglesi (Austen, Corrado, Sconfiggi, Dickens, Doyle, Elio, Orwell e Twain) e otto autori polacchi (Korczak, Kraszewski, lam, Orzeszkowa, Pru, Reymont, Sienkiewicz e Zeromski). Gli autori includevano due vincitori del Premio Nobel per la letteratura (Wladyslaw Reymont e Henryk Sienkiewicz). Tutti i testi sono stati ottenuti da risorse internet:Project Gutenberg, Wikisource e Wolne Lektury. Il gruppo dell'IFJ PAN ha quindi verificato l'affidabilità con cui è stato possibile determinare la paternità di 12 opere selezionate casualmente in una lingua, trattare il resto del pool di opere come materiale comparativo.

    "Nel caso dei testi in inglese, abbiamo identificato correttamente gli autori in quasi il 90% dei casi. Inoltre, per raggiungere il successo, è stato necessario tracciare le connessioni tra solo 10-12 parole del testo esaminato. Contrariamente all'intuizione ingenua, un ulteriore aumento del numero di parole studiate non ha aumentato significativamente l'efficacia del metodo, "dice Stanisz.

    In polacco, la determinazione della paternità si è rivelata ancora più semplice:è stato necessario analizzare solo da cinque a sei parole. In particolare, nonostante il fatto che il pool di parole significative fosse la metà di quello in inglese, la probabilità di una corretta identificazione è stata aumentata fino al 95 percento. Tale elevata accuratezza diagnostica, però, è stato raggiunto solo quando anche i segni di punteggiatura sono stati trattati come parole separate. In entrambe le lingue, l'omissione della punteggiatura ha comportato una significativa riduzione del numero di ipotesi corrette. Il ruolo osservato della punteggiatura è un'altra conferma delle conclusioni di una pubblicazione del 2017 del gruppo del Prof. Drozdz, in cui è stato dimostrato che la punteggiatura gioca un ruolo nel linguaggio altrettanto importante delle parole stesse.

    "Rispetto all'inglese, Il polacco sembra dare maggiori possibilità di rivelare lo stile dell'autore. Riteniamo che le altre lingue slave siano caratterizzate da caratteristiche simili. L'inglese è una lingua posizionale, il che significa che l'ordine delle parole in una frase è importante. Questo tipo di lingua lascia meno spazio a uno stile espressivo individuale rispetto alle lingue slave, in quale inflessione, o variazione, determina il ruolo di una parola o di una frase in una frase. Ciò consente una maggiore libertà di organizzare l'ordine delle parole in una frase, mentre il suo significato rimane invariato, " dice il prof. Drozdz.

    © Scienza https://it.scienceaq.com