Panoramica delle attività in IGLUE, che includono l'inferenza basata sul linguaggio naturale, la risposta visiva a domande, il ragionamento fondato e il recupero cross-modale. Ad ogni attività è associato un esempio di input e output (traduzioni in inglese in basso). Credito:Atti della trentanovesima conferenza internazionale sull'apprendimento automatico (2022). DOI:10.48550/arXiv.2201.11732
Tante lingue; eppure all'inglese è concesso il dominio quasi totale quando si tratta della tecnologia AI Machine Learning (ML). Se, ad esempio, i ricercatori stanno addestrando un computer a comprendere il contenuto di un testo casuale, i campioni di formazione saranno generalmente in inglese.
"Questo introduce un significativo pregiudizio culturale non intenzionale. Anche dopo un lungo addestramento, la macchina non sarà mai stata esposta all'addomesticamento dei tori in India, alla cottura cinese di pentole calde o ad altri fenomeni familiari a milioni di persone, ma capita semplicemente di mentire al di fuori dell'orizzonte nativo di lingua inglese", afferma il dottorato di ricerca. ricercatore Emanuele Bugliarello, Dipartimento di Informatica (DIKU), Università di Copenaghen.
In un vero sforzo interculturale, Bugliarello e colleghi di diversi paesi hanno creato un nuovo strumento che incoraggia un approccio più diversificato. IGLUE (Image-Grounded Language Understanding Evaluation), come hanno chiamato lo strumento, è un benchmark che consente di valutare l'efficienza di una soluzione ML in 20 lingue (anziché solo in inglese).
Il loro articolo scientifico che presenta IGLUE è stato accettato per la pubblicazione nei prossimi Proceedings of The Thirty-nineth International Conference on Machine Learning , una delle migliori conferenze del settore.
I volontari hanno fornito immagini specifiche per la cultura
In che modo un nuovo benchmark può fare la differenza?
"Quando i team di ricerca ML creano nuove soluzioni, sono sempre altamente competitivi. Se un altro gruppo è riuscito a risolvere un determinato compito ML con una precisione del 98%, cercherai di ottenere il 99% e così via. Questo è ciò che spinge il campo in avanti. Ma il rovescio della medaglia è che se non si dispone di un benchmark adeguato per una determinata funzionalità, non verrà assegnata la priorità. Questo è stato il caso del ML multimodale e IGLUE è il nostro tentativo di cambiare la scena", afferma Bugliarello.
Basare la formazione sulle immagini è standard in ML. Tuttavia, le immagini sono generalmente "etichettate", il che significa che frammenti di testo accompagneranno ogni immagine, aiutando il processo di apprendimento della macchina. Mentre le etichette sono normalmente in inglese, IGLUE copre 20 lingue tipologicamente diverse, coprendo 11 famiglie linguistiche, 9 scritture e 3 macroaree geografiche.
Una parte delle immagini in IGLUE sono specifiche della cultura. Queste immagini sono state ottenute tramite una campagna di posta. I ricercatori hanno chiesto a volontari in paesi geograficamente diversi di fornire immagini e testi nella loro lingua naturale e preferibilmente su cose importanti in quel paese.
Travolto da reazioni positive
L'attuale mancanza di ML multimodale ha implicazioni pratiche, spiega Bugliarello:
"Diciamo che hai un'allergia alimentare e hai un'app che può dirti se gli ingredienti problematici sono presenti in un pasto. Trovandoti in un ristorante in Cina, ti rendi conto che il menu è tutto in cinese ma ha delle immagini. Se la tua app è buona, potrebbe tradurre l'immagine in una ricetta, ma solo se la macchina è stata esposta a campioni cinesi durante l'allenamento."
In altre parole, chi non parla inglese ottiene una versione più scadente delle soluzioni basate su ML:
"Le prestazioni di molte delle migliori soluzioni ML diminuiranno all'istante, poiché vengono esposte a dati provenienti da paesi non anglofoni. E in particolare, le soluzioni ML perdono concetti e idee che non si sono formati in Europa o in Nord America. Questo è qualcosa che la comunità di ricerca sul ML deve affrontare", afferma Bugliarello.
Per fortuna molti colleghi hanno visto la luce, osserva Bugliarello:
"Tutto è iniziato alcuni anni fa, quando abbiamo scritto un articolo per la conferenza EMNLP (Metodi empirici nell'elaborazione del linguaggio naturale). Volevamo solo segnalare un problema, ma siamo stati presto sopraffatti dall'interesse e, con nostra grande sorpresa, il nostro contributo è stato selezionato come Best Long Paper. Le persone hanno visto chiaramente il problema e siamo stati incoraggiati a fare di più."
Può aiutare i non vedenti
A volte il successo attuale sembra quasi un peso, ammette Bugliarello:
"Come università pubblica, abbiamo risorse limitate. Non possiamo perseguire tutti gli aspetti di questo enorme compito. Tuttavia, possiamo vedere che altri gruppi si stanno unendo. Possiamo anche sentire l'interesse delle grandi società tecnologiche. Sono fortemente impegnate in ML e stanno iniziando a rendersi conto di come la distorsione dell'inglese possa essere un problema. Ovviamente, non sono contenti di vedere che le prestazioni delle loro soluzioni diminuiscono in modo significativo se applicate al di fuori dei contesti di lingua inglese."
Nonostante gli sviluppi positivi, Bugliarello non si lascia prendere la mano. Alla domanda su quanto siamo vicini al raggiungimento dell'apprendimento automatico imparziale, risponde:
"Oh, siamo molto lontani."
Tuttavia, non si tratta solo di uguaglianza culturale:
"La metodologia alla base di IGLUE può trovare diverse applicazioni. Ad esempio, speriamo di migliorare le soluzioni per i non vedenti. Esistono strumenti che aiutano i non vedenti a seguire la trama di un film o un altro tipo di comunicazione visiva. Attualmente questi strumenti sono tutt'altro che perfetti , e mi piacerebbe davvero poterli migliorare. Tuttavia, questo è un po' più avanti nel futuro", afferma Bugliarello + Esplora ulteriormente