Costruire un archivio digitale per documenti cartacei in decomposizione

La conversione di documenti cartacei obsoleti in archivi digitali può essere uno sforzo scrupoloso. Credito:Archivio digitale delle società slave, CC BY-ND

I documenti cartacei sono ancora inestimabili testimonianze del passato, anche in un mondo digitale. Fonti primarie conservate in archivi locali in tutta l'America Latina, Per esempio, descrivere una società multietnica secolare alle prese con questioni di razza, classe e religione.

Però, gli archivi cartacei sono vulnerabili alle inondazioni, umidità, insetti, e roditori, tra le altre minacce. L'instabilità politica può tagliare i soldi usati per mantenere gli archivi e la negligenza istituzionale può trasformare documenti preziosi in spazzatura ammuffita.

Lavorando a stretto contatto con colleghi di tutto il mondo, Costruisco archivi digitali e strumenti specializzati che ci aiutano a imparare da quei record, che ripercorrono la vita di persone libere e schiavizzate di origine africana nelle Americhe dal 1500 al 1800. Il nostro sforzo, l'archivio digitale delle società schiaviste, è uno dei tanti progetti umanistici che hanno accumulato consistenti raccolte di immagini digitali di documenti cartacei.

L'obiettivo è garantire che queste informazioni, comprese alcune provenienti da documenti che non esistono più fisicamente, siano accessibili alle generazioni future.

Ma preservare la storia scattando fotografie ad alta risoluzione di documenti secolari è solo l'inizio. I progressi tecnologici aiutano studiosi e archivisti come me a fare un lavoro migliore nel preservare questi documenti e imparare da essi, ma non sempre lo rendono facile.

Un archivio a Cuba contiene tesori di carta difficili da usare e da studiare, anche di persona. Credito:Archivio digitale delle società slave, CC BY-ND

Raccolta di documenti

Dal 2003, l'Archivio Digitale delle Società degli Schiavi ha raccolto più di 700, 000 immagini digitalizzate di documenti storici che documentano la vita di milioni di africani e persone di origine africana in Nord e Sud America.

Membri del nucleo centrale, dalle università degli Stati Uniti, Canada, e Brasile, viaggiare nei siti del progetto in tutta l'America Latina, dove addestrano studenti e archivisti locali a digitalizzare i documenti ecclesiastici e governativi delle loro comunità. Diamo a queste comunità le telecamere, computer e altro hardware di cui hanno bisogno per conservare digitalmente i documenti accatastati negli angoli dei sotterranei delle chiese del XVIII secolo, o in procinto di essere scartato dagli archivi comunali stritolati dallo spazio.

Insegniamo loro anche un'abilità cruciale per l'archiviazione e il recupero:come creare metadati, le informazioni descrittive per aiutare le persone a trovare ciò che le interessa, ad esempio se un documento è un certificato di matrimonio o un atto di battesimo, e di che anno e città proviene. Buoni metadati consentono ai visitatori del sito web del progetto di, Per esempio, cerca tutti i documenti di battesimo della Colombia del XVII secolo.

Dalla digitalizzazione alla conservazione

Col tempo, siamo migliorati molto nella digitalizzazione dei documenti. Nelle immagini più vecchie, non è raro vedere il dito del fotografo che si allontana dal lato dell'inquadratura. Alcune di queste immagini più vecchie vengono archiviate come file JPEG a risoluzione relativamente bassa, un formato che comprime la dimensione del file immagine eliminando alcuni dati quando viene salvato. La maggior parte di questi file è ancora completamente leggibile anche quando un visualizzatore ingrandisce, ma alcuni non lo sono e dovranno essere nuovamente digitalizzati in futuro.

Molte persone sono coinvolte, sia insegnando che imparando come fotografare correttamente i documenti. Credito:Archivio digitale delle società slave, CC BY-ND

La nostra conservazione più recente aderisce ai rigorosi standard della British Library, che finanzia gran parte del nostro lavoro. Queste immagini sono scattate in risoluzioni molto elevate e archiviate in più formati di file tra cui TIFF, che rimane lo standard archivistico.

Trasformare una raccolta di immagini digitalizzate in un vero archivio digitale è uno sforzo lungo e orientato ai dettagli. All'inizio di questo processo, ci siamo imbattuti in un curioso problema che riguardava le fotografie scattate durante i nostri primi sforzi di digitalizzazione. Il software moderno ha spesso interpretato erroneamente l'orientamento di queste immagini, dandoci pagine ruotate di 90 gradi a destra o a sinistra o addirittura completamente capovolte. Nei casi in cui un intero volume è stato ruotato nello stesso modo errato, potrebbe essere riparato automaticamente, ma altri con una serie di errori hanno dovuto essere corretti a mano per consentire ai ricercatori di lavorare più facilmente con il materiale.

Abbiamo anche scoperto che i nomi dei file di dati possono causare problemi. Molte fotocamere assegnano nomi predefiniti alle immagini, come DSCN9126.jpg, che non sono utili per capire di cosa si tratta. Dobbiamo rinominare ogni immagine in un modo standard che indichi come si inserisce nella nostra collezione.

Per il momento abbiamo scelto semplicemente di numerare le immagini in sequenza all'interno di ogni volume; un'altra opzione ragionevole sarebbe quella di anteporre a ciascuno di questi numeri un ID che si riferisca al volume da cui proviene l'immagine.

Questi non sono grandi ostacoli, ma loro e altri lungo linee simili richiedono del tempo per capire e affrontare correttamente. Ma questo sforzo viene ripagato quando le persone che sperano di esplorare la collezione trovano e usano più facilmente le nostre immagini.

Con cura, la conservazione digitale può ridare vita a documenti fatiscenti. Credit:Slave Societies Digital Archive, CC BY-ND

Where to store them?

Once we've captured the images, we need to save them somewhere.

Attualmente, the Slave Societies Digital Archive collection is close to 20 terabytes—roughly the space needed to store all the text in the Library of Congress.

Few institutions have the resources, personnel or expertise needed to store humanities data at such large scales. Data storage isn't exorbitantly expensive, but it's also not cheap—especially when the data needs to be accessed regularly, as opposed to being stored in a static backup or archival copy.

For many years, the Vanderbilt University Library hosted the data, but we outgrew what that organization could afford. We had been backing up many of our most important records on the Digital Preservation Network, a consortium of universities that pooled resources to fund a reliable digital storage system for scholarly production. But that organization shut down in late 2018 after consulting with each member organization to ensure that no data would be lost.

Our path has led to the cloud, computers in technology companies' massive server-warehouse buildings that we access remotely to store and retrieve information. Al momento, multiple copies of our entire dataset are stored on servers on opposite sides of North America. Di conseguenza, we're far less likely to lose our data than at any previous point in the project's history.

If you can read this, you’re very highly trained. Credit:The Conversation screenshot of Slave Societies Digital Archive file, CC BY-ND

Opening access

Storing these records in secure systems is another part of the equation, but we also need to make sure that they're accessible to the people who want to see them.

Our documents, typically written in archaic Spanish or Portuguese, are very hard to read. Even native speakers need special training to decipher what they say.

For several years, we've been producing manual transcriptions of some of our most noteworthy records, such as a volume of baptisms from late 16th-century Havana. But that takes 10 to 15 minutes per page—meaning that transcribing our entire collection would take more than 100, 000 hours.

Other projects have used volunteers to do similar work, but that approach is less likely to be the solution for our archive because of the linguistic skills required to read our documents.

We are exploring automating the transcription process using handwriting recognition technology. Those systems need more work, particularly when dealing with centuries-old handwriting styles, but some researchers are already making progress.

We are also looking at ways to identify the people and places mentioned in our records, making them searchable and connecting them to other similar datasets.

As we and other researchers connect our work, the stories contained in these old documents will come to life and bring new insight to modern scholars.

Questo articolo è stato ripubblicato da The Conversation con una licenza Creative Commons. Leggi l'articolo originale.