Credito:CC0 Dominio pubblico
Può essere più difficile per i computer trovare Waldo, un personaggio sfuggente che si nasconde tra la folla in una popolare serie di libri per bambini, di quanto lo sia per gli umani.
Ora, una ricercatrice A*STAR e i suoi colleghi hanno sviluppato un programma ispirato alla biologia che potrebbe consentire ai computer di identificare Waldos e altri bersagli nella vita reale in modo più efficiente.
L'analisi dell'immagine computerizzata è usata abitualmente in medicina, sicurezza, e soccorso. La velocità è spesso fondamentale in questi sforzi, dice Mengmi Zhang, un informatico presso l'A*STAR's Institute for Infocomm Research, che ha condotto lo studio. Cita l'uso del computer per aiutare a trovare le vittime di disastri naturali, come i terremoti.
Ma questi sforzi sono spesso ostacolati perché i computer mancano dell'intuizione umana. Una persona può individuare rapidamente un cane in uno spazio affollato, ad esempio, anche se non hanno mai visto quel particolare cane prima. Un computer, al contrario, deve essere addestrato utilizzando migliaia di immagini di cani diversi, e anche allora, possono vacillare quando cercano un nuovo cane la cui immagine non hanno incontrato in precedenza.
Questa debolezza potrebbe essere particolarmente problematica durante la scansione di armi, dice Zhang. Un computer addestrato a cercare coltelli e pistole, potrebbe trascurare un altro oggetto appuntito. "Se c'è un bastoncino di metallo affilato che non è stato visto nel set di allenamento, non significa che il passeggero dovrebbe essere in grado di portarlo a bordo dell'aereo, "dice Zhang.
Anche le ricerche attuali del computer tendono ad essere lente perché il computer deve scansionare ogni parte di un'immagine in sequenza, prestando uguale attenzione ad ogni parte. umani, però, spostano rapidamente la loro attenzione tra diverse posizioni in un'immagine per trovare il loro obiettivo. Zhang e i suoi colleghi volevano capire come gli umani lo fanno in modo così efficiente. Hanno presentato 45 persone con immagini affollate e hanno chiesto loro di cacciare un bersaglio, dire, una pecora. Hanno monitorato come gli occhi dei soggetti sfrecciavano intorno alla scena, fissandosi brevemente su posizioni diverse nell'immagine. Hanno scoperto che, in media, le persone potrebbero localizzare le pecore in circa 640 millisecondi. Ciò corrispondeva a cambiare la posizione del loro sguardo, in media, poco più di due volte e mezzo.
Il team ha quindi sviluppato un modello al computer per implementare questa strategia di ricerca più simile a quella umana nella caccia a un cane. Piuttosto che cercare un bersaglio identico all'immagine di un cane data in anticipo, il modello è stato addestrato a cercare qualcosa che avesse caratteristiche simili all'immagine di esempio. Ciò ha permesso al modello di generalizzare da una singola immagine di cane, al "concetto generale di cane, " e scegli rapidamente altri cani che non aveva mai visto prima, spiega Zhang.
I ricercatori hanno testato l'efficacia del nuovo modello di ricerca visiva del computer misurando il numero di volte in cui il computer doveva fissarsi su posizioni diverse in una scena prima di trovare il suo obiettivo. "Ciò che ci sorprende è che utilizzando il nostro metodo, i computer possono cercare le immagini alla stessa velocità degli umani, anche durante la ricerca di oggetti che non hanno mai visto prima, " dice Zhang. Il computer è stato bravo quanto gli umani a trovare Waldo.
Il team sta ora programmando il proprio modello con una migliore comprensione del contesto. Per esempio, gli umani capiscono naturalmente che è più probabile che una tazza sia seduta su un tavolo che fluttuare nell'aria. Una volta implementato, questo dovrebbe migliorare ulteriormente l'efficienza del modello, dice Zhang, aggiungendo, "Waldo non può più nascondersi."