Creare gli strumenti per connettere isiXhosa e isiZulu all'era digitale

Gli strumenti software possono portare più lingue in spazi completamente nuovi. Credito:Zubada/Shutterstock

Viviamo in un mondo in cui si parlano circa 7000 lingue, e uno in cui le tecnologie dell'informazione e della comunicazione stanno diventando sempre più onnipresenti. Questo pone crescenti richieste di più, e più avanzato, Tecnologie del linguaggio umano (HLT).

Queste tecnologie comprendono metodi computazionali, programmi per computer e dispositivi elettronici specializzati per l'analisi, produrre o modificare testi e discorsi.

Interagire con una lingua come l'inglese è reso più facile grazie ai numerosi strumenti a supporto, come i correttori ortografici nei browser e il completamento automatico per i messaggi di testo. Questo principalmente perché l'inglese ha una grammatica relativamente semplice e ben studiata, più dati da cui il software può apprendere, e ingenti finanziamenti per sviluppare strumenti. La situazione è in qualche modo molto diversa per la maggior parte delle lingue del mondo.

Questo sta cominciando a cambiare. Multinazionali orientate al profitto come Google, Facebook e Microsoft, ad esempio, hanno investito nello sviluppo di HLT anche per le lingue africane.

Ricercatori e scienziati, me compreso, stiamo anche studiando e creando queste tecnologie. Ha una rilevanza diretta per la società:lingue, e le identità e le culture ad esse intrecciate, sono una risorsa nazionale per qualsiasi paese. In un paese come il Sudafrica, l'apprendimento di lingue diverse può favorire la coesione e l'inclusione.

Sto solo imparando una lingua, però, non è sufficiente se non ci sono infrastrutture per supportarlo. Ad esempio, che senso ha cercare nel Web, dire, isiXhosa quando gli algoritmi del motore di ricerca non possono comunque elaborare correttamente le parole e quindi non restituiranno i risultati che stai cercando? Dove sono i correttori ortografici per aiutarti a scrivere e-mail, testi scolastici, o articoli di notizie?

Ecco perché abbiamo gettato basi teoriche e creato strumenti di prova del concetto per diverse lingue sudafricane. Ciò include i correttori ortografici per isiZulu e isiXhosa e la generazione di testo principalmente in queste lingue da input strutturati.

Usare le regole del linguaggio per sviluppare strumenti

Lo sviluppo di strumenti per il gruppo di lingue Nguni – e in particolare isiZulu e isiXhosa – non è stato semplicemente un caso di strumenti di copia e incolla dall'inglese. Ho dovuto sviluppare nuovi algoritmi in grado di gestire la grammatica abbastanza diversa. Ho anche collaborato con linguisti per capire i dettagli di ogni lingua.

Ad esempio, anche solo generare automaticamente il sostantivo plurale in isiZulu da un sostantivo al singolare richiedeva un nuovo approccio che combinasse la sintassi – come è scritta – con la semantica (il significato) dei sostantivi usando il suo caratteristico sistema di classi sostantive. In inglese, solo le regole basate sulla sintassi possono fare il lavoro.

Gli approcci basati su regole sono anche preferiti per gli analizzatori morfologici, che suddivide ogni parola nelle sue parti costitutive, e per la generazione del linguaggio naturale. La generazione del linguaggio naturale comporta l'acquisizione di dati strutturati, informazioni o conoscenze, come i numeri nelle colonne di un foglio di calcolo, e la creazione di testo leggibile da essi.

Un modo semplice per rendersene conto è utilizzare modelli in cui il software inserisce i valori forniti dai dati o dalla teoria logica. Questo non è possibile per isiZulu, perché i costituenti della frase sono dipendenti dal contesto.

È necessario un motore grammaticale per generare correttamente anche le frasi più elementari. Abbiamo elaborato gli aspetti principali del flusso di lavoro nel motore. Questo viene esteso con maggiori dettagli dei verbi.

Utilizzo di molto testo per sviluppare strumenti

L'approccio basato su regole richiede molte risorse. Questo, in combinazione con il clamore globale intorno ai "Big Data", ha portato alla ribalta approcci basati sui dati.

La speranza è che ora si possano sviluppare strumenti di migliore qualità con meno sforzo e che sia più facile riutilizzarli per i linguaggi correlati. Questo può funzionare, purché si disponga di molto testo di buona qualità, indicato come corpus.

Tali corpora sono in fase di sviluppo, e il Centro sudafricano per le risorse linguistiche digitali (SADiLaR) di recente costituzione mira a mettere in comune le risorse computazionali. Abbiamo studiato gli effetti di un corpus sulla qualità di un correttore ortografico isiZulu, che ha dimostrato che l'apprendimento del modello linguistico basato sulle statistiche su vecchi testi come la Bibbia non si trasferisce bene ai testi moderni come le notizie del giornale Isolezwe, né viceversa.

Il correttore ortografico ha una precisione di circa il 90% nel rilevamento degli errori di una sola parola e sembra contribuire all'intellettualizzazione di isiZulu.

I suoi algoritmi utilizzano trigrammi e probabilità della loro occorrenza nel corpus per calcolare la probabilità che una parola sia scritta correttamente, piuttosto che un approccio basato su dizionario che non è pratico per le lingue agglutinanti. Gli algoritmi sono stati riutilizzati per isiXhosa semplicemente alimentandolo con un piccolo corpus di isiXhosa:ha già raggiunto circa l'80% di precisione anche senza ottimizzazioni.

Gli approcci basati sui dati sono perseguiti anche negli strumenti per la ricerca di informazioni online, cioè., per sviluppare motori di ricerca come un 'Google per isiZulu'. Algoritmi per la traduzione automatica basata sui dati, d'altra parte, può essere facilmente fuorviato da dati di addestramento fuori dominio da cui deve apprendere i modelli.

Rilevanza per il Sudafrica

Questo tipo di generazione del linguaggio naturale potrebbe essere incredibilmente utile in Sudafrica. Il paese ha 11 lingue ufficiali, con l'inglese come lingua degli affari. Ciò ha portato alla messa da parte degli altri 10, e in particolare quelli che erano già sotto le risorse.

Questa tendenza è contraria ai diritti dei cittadini e agli obblighi dello Stato come delineati nella Costituzione. Questi obblighi vanno oltre la semplice promozione del linguaggio. Prendere, ad esempio, il diritto di accesso al sistema sanitario pubblico. Uno studio ha mostrato che solo il 6% delle consultazioni medico-paziente si è svolto nella lingua madre del paziente. L'altro 94% essenzialmente non ha ricevuto l'assistenza di qualità che meritava a causa delle barriere linguistiche.

Il tipo di ricerca a cui sto lavorando con il mio team può aiutare. Potrebbe contribuire a, tra gli altri, realizzare tecnologie come la generazione automatica delle note di dimissione del paziente nella propria lingua, previsioni del tempo basate su testo, ed esercizi di apprendimento delle lingue online.

Questo articolo è stato originariamente pubblicato su The Conversation. Leggi l'articolo originale.