• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Sviluppo di uno strumento di traduzione automatica per aiutare i richiedenti asilo alla frontiera

    Credito:CC0 di pubblico dominio

    Immagina di fuggire dalla persecuzione a casa, di sopravvivere a un viaggio difficile, di arrivare in un nuovo paese per chiedere asilo, solo per essere respinto al confine perché nessuno parla la tua lingua. Questa è la realtà per centinaia di migranti che arrivano negli Stati Uniti da aree remote del Centro America che non parlano lingue comuni, come lo spagnolo o il portoghese.

    La carenza di traduttori per i richiedenti asilo indigeni che parlano lingue tradizionali significa che molti devono aspettare mesi o addirittura anni in Messico per richiedere asilo, creando un lungo arretrato in un sistema di immigrazione già sopraffatto.

    "Il sistema di immigrazione degli Stati Uniti è impostato per gestire l'inglese e lo spagnolo", ha affermato Katy Felkner, Ph.D. studente di informatica presso la USC Viterbi School of Engineering, "ma ci sono diverse centinaia di persone all'anno che parlano lingue minoritarie, in particolare che parlano lingue indigene del Messico e dell'America centrale, che non sono in grado di accedere a nessuna delle risorse e assistenza legale che esiste per i migranti di lingua spagnola".

    In altri casi, le persone non sono in grado di spiegare le minacce alla loro vita nelle loro città d'origine, che potrebbero essere la base per l'asilo. Quando i migranti non possono capire o essere compresi, non c'è modo di stabilire la minaccia alla loro sicurezza durante un "intervista credibile sulla paura" condotto dal Dipartimento per la sicurezza interna degli Stati Uniti.

    Le statistiche sono sconcertanti:gli immigrati richiedenti asilo senza un avvocato hanno prevalso solo nel 13% dei casi, mentre quelli con un avvocato hanno prevalso nel 74% dei casi, secondo uno studio della Fordham Law Review.

    Felkner, che conduce la sua ricerca presso l'USC Information Sciences Institute (ISI) sotto Jonathan May, professore associato di ricerca, sta lavorando allo sviluppo di una soluzione:un sistema di traduzione automatica per le lingue indigene messicane e centroamericane che può essere utilizzato dalle organizzazioni che forniscono servizi legali aiuti ai rifugiati e ai richiedenti asilo.

    "Le persone subiscono un impatto negativo diretto perché non ci sono interpreti disponibili per le loro lingue nelle organizzazioni di assistenza legale", ha affermato Felkner. "Questo è un modo concreto e immediato in cui possiamo utilizzare l'elaborazione del linguaggio naturale per il bene sociale."

    "Le persone subiscono un impatto negativo diretto perché non ci sono interpreti disponibili per le loro lingue nelle organizzazioni di assistenza legale". Katy Felkner.

    Dare una giusta possibilità ai richiedenti asilo

    Felkner sta attualmente lavorando a un sistema per una lingua guatemalteca, che è una delle 25 lingue più comuni parlate nei tribunali per l'immigrazione negli ultimi anni, secondo il New York Times.

    "Stiamo cercando di fornire un sistema di traduzione approssimativa per consentire alle organizzazioni non profit e alle ONG che non hanno le risorse per assumere interpreti per fornire un certo livello di assistenza legale e dare ai richiedenti asilo una giusta possibilità di superare quel credibile colloquio sulla paura", ha affermato Feltner.

    L'interesse di Felkner per le lingue è iniziato durante la sua laurea presso l'Università dell'Oklahoma, dove ha conseguito una doppia laurea in informatica e lettere, con particolare attenzione al latino. Durante il suo primo anno di college, ha lavorato a un progetto chiamato Digital Latin Library, scrivendo codice Python per creare versioni digitali di testi antichi.

    "Questo è ciò che mi ha fatto pensare alla tecnologia linguistica", ha affermato Felkner. "Ho imparato alcune nozioni di base sull'elaborazione del linguaggio naturale e ho finito per concentrarmi sulla traduzione automatica perché penso che sia una delle aree con l'impatto umano più immediato e anche uno dei problemi più difficili in quest'area".

    Mentre Felkner e May sono attualmente concentrati sullo sviluppo di un traduttore da testo a testo, l'obiettivo finale, tra anni, è un sistema di traduzione vocale multilingue:l'avvocato parlerebbe inglese o spagnolo e il sistema tradurrebbe automaticamente nella lingua indigena del richiedente asilo e viceversa.

    Spingere il limite inferiore

    I sistemi di traduzione vengono addestrati utilizzando dati paralleli:in altre parole, imparano vedendo coppie di traduzioni, o lo stesso testo in entrambe le lingue, a livello di frase. Ma ci sono pochissimi dati paralleli nelle lingue indigene, incluso il k'iche', nonostante sia parlato da circa un milione di persone.

    Questo perché i dati paralleli esistono solo quando c'è un motivo convincente per tradurre in o fuori quella lingua. In sostanza, ha detto Felkner, se è commercialmente fattibile - la Disney doppia i film dall'inglese allo spagnolo, per esempio - o se deriva da una motivazione religiosa.

    In molti casi, a causa dell'influenza dei missionari in tutta l'America Latina, l'unica fonte parallela di dati – lo stesso testo in entrambe le lingue – è la Bibbia, che non offre molto ai ricercatori su cui lavorare.

    "Immagina di essere un madrelingua inglese che cerca di imparare lo spagnolo, ma l'unico spagnolo che ti è mai permesso di vedere è il Nuovo Testamento", ha detto Felkner. "Sarebbe abbastanza difficile."

    Questa è una cattiva notizia per i modelli di apprendimento profondo affamati di dati utilizzati dai sistemi di traduzione linguistica che adottano un approccio di quantità rispetto alla qualità.

    "I modelli devono vedere una parola, una frase, una costruzione grammaticale un sacco di volte per vedere dove è probabile che si verifichi e a cosa corrisponde nell'altra lingua", ha affermato Felkner. "Ma non abbiamo questo per K'iche' e altre lingue indigene a risorse estremamente basse".

    I numeri parlano da soli. Dall'inglese al K'iche', Felkner ha circa 15.000 frasi di dati paralleli e 8.000 frasi dallo spagnolo al K'iche'. Al contrario, il modello spagnolo-inglese che ha addestrato per alcuni lavori di base aveva 13 milioni di frasi di dati di addestramento.

    "Stiamo cercando di lavorare essenzialmente senza dati", ha affermato Felkner. "E questo è il caso di quasi tutte le lingue a basso contenuto di risorse, ancor di più nelle Americhe".

    Una tattica nel lavoro esistente con risorse limitate utilizza lingue strettamente correlate e con risorse più elevate come punto di partenza:ad esempio, per tradurre dall'inglese al rumeno, inizieresti ad addestrare il modello in spagnolo.

    Ma poiché le lingue indigene delle Americhe si sono sviluppate separatamente dall'Europa e dall'Asia, la maggior parte sono risorse a basso contenuto e la maggior parte di esse sono risorse estremamente basse, un termine coniato da Felkner per descrivere una lingua con meno di circa 30.000 frasi di dati paralleli.

    "Stiamo davvero cercando di spingere il limite inferiore su quanti pochi dati puoi avere per addestrare con successo un sistema di traduzione automatica", ha affermato Felkner.

    Creare qualcosa dal nulla

    Ma Felkner, con il suo background in linguistica, era imperterrita. Negli ultimi due anni, ha lavorato alla creazione di dati linguistici per i modelli utilizzando alcuni trucchi del mestiere nell'elaborazione del linguaggio naturale.

    Una tattica consiste nell'insegnare al modello a completare il compito astratto della traduzione e quindi impostarlo per lavorare sulla lingua specifica in questione. "È lo stesso principio di imparare a guidare un autobus imparando prima a guidare un'auto", ha detto Felkner.

    Per fare questo, Felkner ha preso un modello dall'inglese allo spagnolo e poi lo ha messo a punto per K'iche' allo spagnolo. Si è scoperto che questo approccio, chiamato transfer learning, ha mostrato risultati promettenti anche in un caso di risorse estremamente basse. "È stato molto eccitante", ha detto Felkner. "L'approccio di apprendimento per trasferimento e la pre-formazione da una lingua non strettamente correlata non erano mai stati testati in questo ambiente di risorse estremamente ridotte e ho scoperto che ha funzionato".

    Ha anche attinto a un'altra risorsa:l'utilizzo di libri di grammatica pubblicati da linguisti sul campo tra la metà e la fine degli anni '70 per generare dati sintetici plausibili che possono essere utilizzati per aiutare i modelli ad apprendere. La Felkner sta usando i libri di grammatica per scrivere regole che la aiuteranno a costruire frasi sintatticamente corrette dai dizionari. Il termine tecnico per questo è bootstrap o aumento dei dati, o colloquialmente "fingi finché non ce la fai".

    "Utilizziamo questi dati come dati di pre-allenamento, essenzialmente per insegnare ai modelli le basi della grammatica", ha affermato Felkner. "Quindi, possiamo salvare i nostri dati reali, come i dati paralleli della Bibbia, per il periodo di messa a punto in cui imparerà cosa è semanticamente significativo o cosa ha effettivamente senso."

    Infine, sta testando una tecnica che prevede l'analisi dei nomi nei lati inglese e K'iche' della Bibbia, la loro sostituzione con altri nomi e quindi l'utilizzo di una serie di regole per flettere correttamente le frasi per la grammatica.

    Ad esempio, se i dati dell'allenamento contengono la frase:"il ragazzo ha calciato il pallone", i ricercatori potrebbero utilizzare questo approccio per generare frasi come "la ragazza ha calciato il pallone", "il dottore ha calciato il pallone", "l'insegnante ha calciato il pallone ball", che possono diventare tutti dati di allenamento.

    "L'idea è di utilizzare questi esempi generati sinteticamente per costruire essenzialmente una versione approssimativa del sistema, in modo da poter sfruttare molto la piccola quantità di dati reali di cui disponiamo e regolarla esattamente dove voglio che sia", ha detto Felkner.

    Impatto umanitario immediato

    Lavorare in traduzioni in lingue con risorse estremamente ridotte non è facile e a volte può essere frustrante, ammette Felkner. Ma la sfida e il potenziale per cambiare la vita la portano ad avere successo.

    Entro il prossimo anno, ha in programma di intraprendere un viaggio sul campo per osservare come le organizzazioni di assistenza legale stanno lavorando al confine e dove il suo sistema potrebbe inserirsi nel loro flusso di lavoro. Sta anche lavorando a un sito web dimostrativo per il sistema, che spera di presentare nel 2023, e una volta sviluppato, spera che un giorno il sistema possa essere applicato ad altre lingue indigene.

    "L'arrampicata in collina su lingue ad alto contenuto di risorse può farti capire meglio da Alexa, Google Home o Siri, ma non è trasformativo allo stesso modo", ha affermato Felkner. "Sto facendo questo lavoro perché ha un impatto umanitario immediato. Come disse una volta JFK, scegliamo di andare sulla luna non perché è facile, ma perché è difficile. Penso spesso che le cose che vale la pena fare siano difficili ." + Esplora ulteriormente

    Eliminare i pregiudizi anti-queer nella previsione del testo




    © Scienza https://it.scienceaq.com