Credito:CC0 Dominio Pubblico
Sembra la trama di un romanzo di spionaggio, con un tocco di cyberpunk:un agente si avvicina a un luogo sicuro, protetto da un sistema di riconoscimento facciale, accessibile solo a un capo di stato o amministratore delegato. Lampeggiante un orecchino dalla forma insolita, l'agente inganna il sistema facendogli credere di essere quel VIP, aprendo la porta ed esponendo i segreti all'interno. La chiave:una "cella dormiente" non rilevabile è stata collocata all'interno dell'IA dietro il sistema di sicurezza mesi o anni prima per consentire l'accesso a chiunque indossasse i gioielli specificati.
Ciò che rende una scena avvincente nella finzione potrebbe essere devastante nella vita reale, soprattutto perché sempre più agenzie e aziende implementano il riconoscimento facciale o altri sistemi basati sull'intelligenza artificiale per scopi di sicurezza. Poiché le reti neurali sono per molti versi una "scatola nera" per il modo in cui arrivano alle loro decisioni di classificazione, è tecnicamente possibile per un programmatore con intenzioni nefaste nascondere le cosiddette "backdoor" che consentono un successivo sfruttamento. Mentre ci sono, come ancora, nessun uso criminale documentato di questo metodo, i ricercatori della sicurezza dell'Università di Chicago stanno sviluppando approcci per fiutare e bloccare queste cellule dormienti prima che colpiscano.
In un documento che sarà presentato al rinomato IEEE Symposium on Security and Privacy a San Francisco questo maggio, un gruppo del Prof. Ben Zhao e del Prof. Heather Zheng del SAND Lab descrive la prima difesa generalizzata contro questi attacchi backdoor nelle reti neurali. La loro tecnica di "pulizia neurale" scansiona i sistemi di apprendimento automatico per le impronte digitali rivelatrici di una cellula dormiente e offre al proprietario una trappola per catturare eventuali potenziali infiltrati.
"Abbiamo una difesa abbastanza solida contro di essa, e siamo in grado non solo di rilevare la presenza di un tale attacco, ma anche decodificarlo e modificarne l'effetto, " disse Zhao, uno dei principali studiosi di sicurezza e machine learning. "Possiamo eliminare il bug dal sistema e continuare a utilizzare il modello sottostante che rimane. Una volta che sai che il grilletto è lì, puoi effettivamente aspettare che qualcuno lo usi e programmare un filtro separato che dice:'Chiama la polizia.'"
Molti degli odierni sistemi di intelligenza artificiale per il riconoscimento facciale o la classificazione delle immagini utilizzano reti neurali, un approccio vagamente basato sui tipi di connessioni che si trovano nel cervello. Dopo l'addestramento con set di dati composti da migliaia o milioni di immagini etichettate per le informazioni che contengono, come il nome di una persona o una descrizione dell'oggetto principale che presenta, la rete impara a classificare le immagini che non ha mai visto prima. Quindi un sistema alimentato da molte foto delle persone A e B sarà in grado di determinare correttamente se una nuova foto, magari ripreso con una telecamera di sicurezza, è la persona A o B.
Poiché la rete "apprende" le proprie regole mentre viene addestrata, il modo in cui distingue tra persone o oggetti può essere opaco. Ciò rende l'ambiente vulnerabile a un hacker che potrebbe intrufolarsi in un trigger che sovrascrive il normale processo di smistamento della rete, inducendolo a identificare erroneamente chiunque o qualsiasi cosa mostri un orecchino specifico, tatuaggio o segno.
"All'improvviso, la modella pensa che tu sia Bill Gates o Mark Zuckerberg, "Zhao ha detto, "o qualcuno mette un adesivo su un segnale di stop che all'improvviso lo gira, dal punto di vista di un'auto a guida autonoma, in una luce verde. Inneschi un comportamento imprevisto fuori dal modello e potenzialmente hai davvero, accadono cose davvero brutte".
Nell'ultimo anno, due gruppi di ricerca hanno pubblicato documenti sulla sicurezza informatica su come creare questi trigger, sperando di portare alla luce un metodo pericoloso prima che possa essere abusato. Ma il documento SAND Lab, che comprende anche studenti ricercatori Bolun Wang, Yuanshun Yao, Shawn Shan e Huiying Li, così come Bimal Viswanath della Virginia Tech, è il primo a reagire.
Il loro software funziona confrontando ogni possibile coppia di etichette:persone o segnali stradali, Per esempio, nel sistema tra loro. Quindi calcola quanti pixel devono cambiare in un'immagine per cambiare la classificazione di un insieme diversificato di campioni da uno all'altro, come da un segnale di stop a un segnale di rendimento. Qualsiasi "cella dormiente" inserita nel sistema produrrà numeri sospettosamente bassi in questo test, riflettendo la scorciatoia innescata da un orecchino o un segno dalla forma distinta. Il processo di segnalazione determina anche il trigger, e i passaggi successivi possono identificare ciò che si intendeva fare e rimuoverlo dalla rete senza danneggiare le normali attività di classificazione per cui è stato progettato.
La ricerca ha già attirato l'attenzione della comunità dell'intelligence statunitense, ha detto Zhao, lanciare un nuovo programma di finanziamento per continuare a costruire difese contro le forme di spionaggio dell'intelligenza artificiale. I ricercatori di SAND Lab stanno ulteriormente perfezionando il loro sistema, espandendolo per scovare backdoor ancora più sofisticate e trovando metodi per contrastarle nelle reti neurali utilizzate per classificare altri tipi di dati, come audio o testo. Fa tutto parte di una partita a scacchi senza fine tra coloro che cercano di sfruttare il campo in crescita dell'IA e coloro che cercano di proteggere la tecnologia promettente.
"Questo è ciò che rende la sicurezza divertente e spaventosa, " ha detto Zhao. "Stiamo facendo una sorta di approccio dal basso verso l'alto, dove diciamo che qui ci sono le peggiori cose possibili che possono accadere, e rattoppiamoli prima. E speriamo di aver ritardato gli esiti negativi abbastanza a lungo da consentire alla comunità di produrre soluzioni più ampie per coprire l'intero spazio".