• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • La Bibbia aiuta i ricercatori a perfezionare gli algoritmi di traduzione

    I testi di 34 versioni della Bibbia in lingua inglese sono stati utilizzati per migliorare i sistemi di trasferimento dello stile basati su computer. Il risultato può creare diverse versioni di passaggi scritti per soddisfare un pubblico specifico. Credito:foto della Bibbia:Chris Downer. Illustrazione composita:Keith Carlson.

    Alla ricerca di ispirazione per migliorare i traduttori di testo basati su computer, i ricercatori del Dartmouth College si sono rivolti alla Bibbia come guida. Il risultato è un algoritmo addestrato su varie versioni dei testi sacri in grado di convertire opere scritte in stili diversi per diversi tipi di pubblico.

    Gli strumenti Internet per tradurre il testo tra lingue come l'inglese e lo spagnolo sono ampiamente disponibili. La creazione di traduttori di stile, strumenti che mantengono il testo nella stessa lingua ma trasformano lo stile, è stata molto più lenta a emergere. In parte, gli sforzi per sviluppare i traduttori sono stati ostacolati dalla difficoltà di acquisire l'enorme quantità di dati richiesti. È qui che il team di ricerca si è rivolto alla Bibbia.

    Oltre ad essere una fonte di guida spirituale per molte persone in tutto il mondo, il team guidato da Dartmouth ha visto nella Bibbia "un grande, set di dati precedentemente non sfruttato di testo parallelo allineato." Oltre a fornire ispirazione infinita, ogni versione della Bibbia contiene più di 31, 000 versi che i ricercatori hanno utilizzato per produrre oltre 1,5 milioni di abbinamenti unici di versi di origine e di destinazione per i set di formazione per l'apprendimento automatico.

    Secondo la ricerca pubblicata sulla rivista Royal Society Scienza Aperta , questo non è il primo set di dati parallelo creato per la traduzione dello stile. Ma è il primo che usa la Bibbia. Altri testi che sono stati usati in passato, che vanno da Shakespeare a voci di Wikipedia, fornire set di dati che sono molto più piccoli o non altrettanto adatti per l'attività di apprendimento della traduzione in stile.

    "La Bibbia in lingua inglese è disponibile in molti stili scritti diversi, rendendolo il testo sorgente perfetto con cui lavorare per la traduzione di stile, " ha detto Keith Carlson, un dottorato di ricerca studente a Dartmouth e autore principale del documento di ricerca sullo studio.

    Come ulteriore vantaggio per il team di ricerca, la Bibbia è già accuratamente indicizzata dall'uso coerente del libro, i numeri dei capitoli e dei versi. L'organizzazione prevedibile del testo tra le versioni elimina il rischio di errori di allineamento che potrebbero essere causati da metodi automatici di corrispondenza di diverse versioni dello stesso testo.

    "La Bibbia è un insieme di dati 'divini' con cui lavorare per studiare questo compito, " ha detto Daniel Rockmore, un professore di informatica a Dartmouth e autore che ha contribuito allo studio. "Da secoli gli esseri umani svolgono il compito di organizzare i testi biblici, quindi non abbiamo dovuto riporre la nostra fiducia in algoritmi di allineamento meno affidabili."

    Per definire lo "stile" per lo studio, i ricercatori fanno riferimento alla lunghezza della frase, l'uso di voci passive o attive, e la scelta delle parole che potrebbe portare a testi con vari gradi di semplicità o formalità. Secondo lo studio:"Diverse parole possono trasmettere diversi livelli di gentilezza o familiarità con il lettore, mostrare diverse informazioni culturali sullo scrittore, essere più facile da capire per alcune popolazioni."

    Il team ha utilizzato 34 versioni della Bibbia stilisticamente distinte, che vanno dalla complessità linguistica dalla "Versione di Re Giacomo" alla "Bibbia in inglese di base". I testi sono stati inseriti in due algoritmi:un sistema di traduzione automatica statistica chiamato "Mosè" e un framework di rete neurale comunemente usato nella traduzione automatica, "Seq2Seq."

    Mentre diverse versioni della Bibbia sono state utilizzate per addestrare il codice del computer, alla fine potrebbero essere sviluppati sistemi che traducano lo stile di qualsiasi testo scritto per diversi tipi di pubblico. Per esempio, un traduttore di stile potrebbe prendere una selezione in lingua inglese da "Moby Dick" e tradurla in diverse versioni adatte ai giovani lettori, non madrelingua inglese, o uno qualsiasi di una varietà di pubblico.

    "La semplificazione del testo è solo un tipo specifico di trasferimento di stile. Più in generale, i nostri sistemi mirano a produrre testo con lo stesso significato dell'originale, ma fallo con parole diverse, " ha detto Carlson.

    Il Dartmouth College ha una lunga storia di innovazione nell'informatica. Il termine "intelligenza artificiale" è stato coniato a Dartmouth durante una conferenza del 1956 che ha creato la disciplina della ricerca sull'intelligenza artificiale. Altri progressi includono la progettazione di BASIC, il primo linguaggio di programmazione accessibile e generico, e il sistema di condivisione del tempo di Dartmouth che ha contribuito al sistema operativo moderno.


    © Scienza https://it.scienceaq.com