• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Cosa succede quando gli scienziati dei dati analizzano tre secoli di Robinson Crusoe?

    Lettura 1, Oltre 400 edizioni di “Robinson Crusoe” in un'estate sono impossibili. Quindi un team di studenti ha cercato di addestrare i computer a farlo per loro. Credito:Duke Research Blog

    Da quando il racconto del naufragio di Daniel Defoe "Robinson Crusoe" è stato pubblicato per la prima volta quasi 300 anni fa, sono state pubblicate migliaia di edizioni e versioni spin-off, in centinaia di lingue.

    Un team di ricerca guidato da Grant Glass, un dottorato di ricerca studente in Letteratura inglese e comparata presso l'Università della Carolina del Nord a Chapel Hill, volevo sapere come è cambiata la storia mentre attraversava le varie edizioni, imitazioni e traduzioni, e per vedere quali parti hanno resistito alla prova del tempo.

    Leggerli tutti al ritmo di uno al giorno richiederebbe anni. Anziché, i ricercatori stanno addestrando i computer a farlo per loro.

    Quest'estate, Il team di Glass nel programma di ricerca estivo Data+ ha utilizzato algoritmi informatici e tecniche di apprendimento automatico per vagliare 1, 482 versioni a testo integrale di Robinson Crusoe, compilato da archivi online.

    "Molte volte pensiamo a un libro come scolpito nella pietra, " Glass ha detto. "Ma un progetto come questo ti mostra che è disordinato. C'è un sacco di varianza ad esso."

    "Quando prendi in mano un libro è importante sapere che copia è, perché questo può influenzare il modo in cui pensi alla storia, " disse il vetro.

    Solo ottenere i testi in una forma che un computer potrebbe elaborare si è rivelata metà della battaglia, ha detto il membro del team universitario Orgil Batzaya, una doppia specializzazione Duke in matematica e informatica.

    Credito:Duke Research Blog

    I libri sono stati già scansionati e pubblicati online, quindi gli studenti hanno utilizzato un software per scaricare le scansioni da Internet, tramite un processo chiamato "raschiatura". Ma elaborando le pagine scansionate di vecchi libri stampati, alcuni dei quali avevano macchie, macchie o tipo usurato, e convertirli in un formato leggibile dalla macchina si è rivelato più complicato di quanto pensassero.

    Il software ha faticato a decodificare le strane grafie ("deliver'd, " "Desidero, " "perversioni, " "shore" contro "shoar"), caratteri tipografici diversi tra le edizioni, e altre stranezze.

    Caratteri speciali esclusivi dei caratteri del XVIII secolo, come la curiosa versione a forma di f della lettera "s, "Far leggere anche agli umani "diftance" e "poffible" con una balbetta mentale.

    I loro primi tentativi sono usciti con gobbledygook. "Il riconoscimento ottico dei caratteri risultante era completamente inutilizzabile, ", ha detto il membro del team e duca senior Gabriel Guedes.

    In una sessione poster di Data+ ad agosto, Guede, Batzaya e il doppio maggiore di storia e informatica Lucian Li hanno presentato i loro risultati iniziali:una raccolta di grafici a dispersione colorati, mappe, diagrammi di flusso e grafici a linee.

    Credito:Duke Research Blog

    Guedes ha indicato gruppi di punti su un grafico di rete. "Qui, le edizioni rosse sono americane, le edizioni blu provengono dal Regno Unito, "Il Guedes ha detto. "Il grafico della rete riconosce la somiglianza tra tutte queste edizioni e le raggruppa insieme".

    Una volta che hanno trasformato le pagine scansionate in testi leggibili dalla macchina, il team li ha inseriti in un algoritmo di apprendimento automatico che misura la somiglianza tra i documenti.

    L'algoritmo accetta blocchi di testo:frasi, paragrafi, persino interi romanzi e li converte in vettori ad alta dimensione.

    Creando questa rappresentazione numerica di ogni libro, Guedes ha detto, ha permesso di eseguire operazioni matematiche su di essi. Hanno sommato i vettori per ogni libro per trovare la loro somma, calcolata la media, e ho cercato di vedere quale edizione fosse più vicina all'edizione "media". Risultò essere una versione di Robinson Crusoe pubblicata a Glasgow nel 1875.

    Hanno anche analizzato l'importanza di punti specifici della trama nel determinare la vicinanza di una data edizione all'edizione "media":che dire del momento in cui Crusoe individua un'impronta nella sabbia e si rende conto di non essere solo? O l'ora in cui Crusoe e venerdì, dopo aver lasciato l'isola, combattere lupi affamati nei Pirenei?

    Credito:Duke Research Blog

    I risultati del team potrebbero essere sconcertanti per coloro che non sono abituati a vedere 300 anni di editoria ridotti a un grafico a barre. Ma usando i computer per confrontare migliaia di libri alla volta, Gli studiosi di "digital humanities" affermano che è possibile tracciare modelli e tendenze su larga scala che gli umani che studiano attentamente i singoli libri non possono.

    "Questo è davvero qualcosa che solo un computer può fare, "Guedes ha detto, indicando una mappa time-lapse che mostra come la storia di Crusoe si è diffusa in tutto il mondo, costruito dai dati sul luogo e la data di pubblicazione per 15, 000 edizioni.

    "È una forma di 'lettura a distanza', " ha detto Guedes. "Usi questa enorme quantità di informazioni per aiutare a trarre conclusioni sulla storia della pubblicazione, il movimento delle idee, e la conoscenza in generale attraverso il tempo."


    © Scienza https://it.scienceaq.com