Credito:Pixabay/CC0 di dominio pubblico
Gli esseri umani percepiscono il mondo attraverso diversi sensi:vediamo, sentiamo, udiamo, gustiamo e annusi. I diversi sensi con cui percepiamo sono molteplici canali di informazione, noti anche come multimodali. Questo significa che ciò che percepiamo può essere visto come multimediale?
Xue Wang, Ph.D. Candidato al LIACS, traduce la percezione in multimedialità e utilizza l'Intelligenza Artificiale (AI) per estrarre informazioni da processi multimodali, in modo simile a come il cervello elabora le informazioni. Nella sua ricerca ha testato i processi di apprendimento dell'IA in quattro modi diversi.
Inserire le parole nei vettori
In primo luogo, Xue ha esaminato l'apprendimento incorporato nelle parole:la traduzione delle parole in vettori. Un vettore è una quantità con due proprietà, ovvero una direzione e una grandezza. Nello specifico, questa parte si occupa di come migliorare la classificazione delle informazioni. Xue ha proposto l'uso di un nuovo modello di intelligenza artificiale che collega le parole alle immagini, semplificando la classificazione delle parole. Durante il test del modello, un osservatore potrebbe interferire se l'IA ha fatto qualcosa di sbagliato. La ricerca mostra che questo modello ha prestazioni migliori rispetto a un modello utilizzato in precedenza.
Guardando le sottocategorie
Un secondo focus della ricerca sono le immagini accompagnate da altre informazioni. Per questo argomento Xue ha osservato il potenziale delle sottocategorie di etichettatura, note anche come etichettatura a grana fine. Ha utilizzato un modello di intelligenza artificiale specifico per semplificare la categorizzazione delle immagini con poco testo attorno. Unisce etichette grossolane, che sono categorie generali, con etichette a grana fine, le sottocategorie. L'approccio è efficace e utile per strutturare categorizzazioni facili e difficili.
Trovare relazioni tra immagini e testo
In terzo luogo, Xue ha studiato l'associazione di immagini e testi. Un problema con questo argomento è che la trasformazione di queste informazioni non è lineare, il che significa che può essere difficile da misurare. Xue ha trovato una potenziale soluzione per questo problema:ha usato la trasformazione basata sul kernel. Kernel sta per una classe specifica di algoritmi nell'apprendimento automatico. Con il modello utilizzato, ora è possibile per l'IA vedere la relazione di significato tra immagini e testo.
Trovare contrasto nelle immagini e nel testo
Infine, Xue si è concentrato sulle immagini accompagnate da testo. In questa parte l'IA ha dovuto guardare ai contrasti tra parole e immagini. Il modello di intelligenza artificiale ha svolto un'attività chiamata messa a terra della frase, che è il collegamento di nomi nelle didascalie dell'immagine a parti dell'immagine. Non c'era nessun osservatore che potesse interferire in questo compito. La ricerca ha mostrato che l'IA può collegare le regioni dell'immagine ai nomi con una precisione media per questo campo di ricerca.
La percezione dell'intelligenza artificiale
Questa ricerca offre un grande contributo nel campo dell'informazione multimediale:vediamo che l'IA può classificare parole, categorizzare immagini e collegare immagini al testo. Ulteriori ricerche possono utilizzare i metodi proposti da Xue e si spera portino a intuizioni ancora migliori sulla percezione multimediale dell'IA.