L'OI iniziò le spedizioni archeologiche nell'antica città di Persepoli negli anni '30, dove hanno scoperto decine di migliaia di tavolette di argilla contenenti caratteri cuneiformi. Una collaborazione tra l'OI e il Dipartimento di Informatica che utilizza un programma di apprendimento automatico potrebbe consentire una traduzione più rapida di questi tablet. Credito:l'OI
Venticinque secoli fa, i "documenti" dell'impero achemenide della Persia sono stati registrati su tavolette di argilla, decine di migliaia delle quali sono state scoperte nel 1933 nell'Iran moderno dagli archeologi dell'Istituto orientale dell'Università di Chicago. Per decenni, ricercatori hanno studiato e tradotto scrupolosamente a mano questi antichi documenti, ma questo processo di decifrazione manuale è molto difficile, lento e soggetto a errori.
Dagli anni '90, scienziati hanno reclutato computer per aiutare, con scarso successo, per la natura tridimensionale delle tavolette e la complessità dei caratteri cuneiformi. Ma una svolta tecnologica presso l'Università di Chicago potrebbe finalmente rendere automatizzata la trascrizione di queste tavolette, che rivelano ricche informazioni sulla storia achemenide, società e lingua:possibile, liberando gli archeologi per analisi di livello superiore.
Questa è la motivazione alla base di DeepScribe, una collaborazione tra ricercatori dell'OI e del Dipartimento di Informatica di UChicago. Con un training set di più di 6, 000 immagini annotate dall'archivio della fortificazione di Persepoli, il progetto finanziato dal Center for Data and Computing costruirà un modello in grado di "leggere" i tablet non ancora analizzati nella collezione, e potenzialmente uno strumento che gli archeologi possono adattare ad altri studi sulla scrittura antica.
"Se potessimo trovare uno strumento flessibile ed estensibile, che possono estendersi a diversi script e periodi di tempo, sarebbe davvero un cambiamento di campo, " ha detto Susanne Paulus, professore associato di Assiriologia.
"È un buon problema di apprendimento automatico"
La collaborazione è iniziata quando Paulus, Sandra Schloen e Miller Prosser dell'OI hanno incontrato Asst. Il Prof. Sanjay Krishnan del Dipartimento di Informatica ad un evento del Neubauer Collegium sulle digital humanities. Schloen e Prosser sovrintendono a OCHRE, una piattaforma di gestione di database supportata dall'OI per acquisire e organizzare i dati provenienti da scavi archeologici e altre forme di ricerca. Krishnan applica tecniche di deep learning e intelligenza artificiale all'analisi dei dati, inclusi video e altri tipi di dati complessi. La sovrapposizione è stata immediatamente evidente da entrambe le parti.
"Dal punto di vista della visione artificiale, è davvero interessante perché queste sono le stesse sfide che affrontiamo. La visione artificiale negli ultimi cinque anni è migliorata in modo così significativo; dieci anni fa, questa sarebbe stata la mano ondulata, non saremmo arrivati così lontano, " ha detto Krishnan. "È un buon problema di apprendimento automatico, perché la precisione è oggettiva qui, abbiamo un set di formazione etichettato e comprendiamo abbastanza bene lo script e questo ci aiuta. Non è un problema del tutto sconosciuto".
Nella foto ci sono punti caldi che delineano segni cuneiformi su una tavoletta elamita dall'archivio della fortificazione di Persepoli. Credito:l'OI
Quel set di formazione è dovuto a oltre 80 anni di studio approfondito da parte dei ricercatori OI e UChicago e alla recente spinta a digitalizzare le immagini ad alta risoluzione della collezione di tablet - attualmente oltre 60 terabyte e ancora in crescita - prima del loro ritorno in Iran. Utilizzando questa raccolta, i ricercatori hanno creato un dizionario della lingua elamita iscritto sulle tavolette, e gli studenti che imparano a decifrare il cuneiforme hanno costruito un database di oltre 100, 000 "punti caldi, "o singoli segni identificati.
Con le risorse dell'UChicago Research Computing Center, Krishnan ha utilizzato questo set di dati con annotazioni per addestrare un modello di apprendimento automatico, simili a quelli utilizzati in altri progetti di visione artificiale. Quando testato su tablet non inclusi nel training set, il modello potrebbe decifrare con successo i segni cuneiformi con una precisione di circa l'80%. La ricerca in corso cercherà di spingere quel numero più in alto mentre esaminerà ciò che rappresenta il restante 20%.
Un sacco di lavoro pesante digitale
Ma anche l'accuratezza dell'80% può fornire immediatamente un aiuto per gli sforzi di trascrizione. Molte tavolette descrivono operazioni commerciali di base, simile a "una scatola di ricevute Walmart, " ha detto Paulus. E un sistema che non riesce a prendere una decisione può ancora essere utile.
"Se il computer potesse semplicemente tradurre o identificare le parti altamente ripetitive e lasciare a un esperto il compito di inserire i nomi di luoghi difficili o i verbi o le cose che richiedono un'interpretazione, che fa molto lavoro, "disse Paolo, il Curatore della Collezione Tablet presso l'OI. "E se il computer non può prendere una decisione definitiva, se potesse restituirci le probabilità o i primi quattro gradi, allora un esperto ha un punto di partenza. Sarebbe fantastico."
Ancora più ambiziosamente, il team immagina DeepScribe come uno strumento di decifrazione generico che possono condividere con altri archeologi. Forse il modello può essere riqualificato per lingue cuneiformi diverse dall'elamita, o può dare suggerimenti educati su quale testo è stato scritto su pezzi mancanti di tavolette incomplete. Un modello di apprendimento automatico potrebbe anche aiutare a determinare l'origine di tablet e altri artefatti di provenienza sconosciuta, un compito attualmente affrontato dai test chimici.
Progetti simili finanziati dal CDAC utilizzano approcci di visione artificiale per applicazioni, come studiare la biodiversità nei bivalvi marini e districare lo stile dal contenuto nel lavoro artistico. La collaborazione spera anche di ispirare future partnership tra l'OI e il Dipartimento di Informatica, poiché l'archeologia digitale si interseca sempre più con approcci computazionali avanzati.
"Penso che abbia aiutato qualcosa che sarebbe finito durante una conversazione a cena a diventare una vera collaborazione, " ha detto Krishnan. "Ci ha portato a fare di più che parlare."