Il segno è stato modificato per cambiare il suo significato in sistemi basati sulla visione artificiale da "Stop" a "Road Work Ahead". Credito:David Kelly Crow
La capacità delle macchine di apprendere elaborando i dati raccolti dai sensori è alla base dei veicoli automatizzati, dispositivi medici e una serie di altre tecnologie emergenti. Ma questa capacità di apprendimento rende i sistemi vulnerabili agli hacker in modi inaspettati, hanno scoperto i ricercatori della Princeton University.
In una serie di articoli recenti, un gruppo di ricerca ha esplorato come le tattiche antagoniste applicate all'intelligenza artificiale (AI) potrebbero, ad esempio, ingannare un sistema di efficienza del traffico per causare ingorghi o manipolare un'applicazione di intelligenza artificiale correlata alla salute per rivelare l'anamnesi privata dei pazienti. Come esempio di uno di questi attacchi, il team ha alterato la percezione di un robot alla guida di un segnale stradale da un limite di velocità a un segnale di "Stop", che potrebbe far frenare pericolosamente il veicolo a velocità autostradali; in altri esempi, hanno alterato i segnali di stop per essere percepiti come una varietà di altre istruzioni sul traffico.
"Se il machine learning è il software del futuro, siamo a un punto di partenza molto semplice per assicurarlo, " disse Prateek Mittal, il ricercatore capo e professore associato presso il Dipartimento di Ingegneria Elettrica a Princeton. "Affinché le tecnologie di apprendimento automatico raggiungano il loro pieno potenziale, dobbiamo capire come funziona il machine learning in presenza di avversari. Ecco dove abbiamo una grande sfida.
Proprio come il software è soggetto a hackeraggio e infezione da virus informatici, o i suoi utenti presi di mira da truffatori attraverso il phishing e altri stratagemmi per violare la sicurezza, Le applicazioni basate sull'intelligenza artificiale hanno le loro vulnerabilità. Eppure il dispiegamento di garanzie adeguate è in ritardo. Finora, la maggior parte dello sviluppo dell'apprendimento automatico si è verificato in condizioni benigne, ambienti chiusi, un ambiente radicalmente diverso rispetto al mondo reale.
Mittal è un pioniere nella comprensione di una vulnerabilità emergente nota come apprendimento automatico dell'avversario. In sostanza, questo tipo di attacco fa sì che i sistemi di intelligenza artificiale producano, risultati potenzialmente pericolosi corrompendo il processo di apprendimento. Nella loro recente serie di articoli, Il gruppo di Mittal ha descritto e dimostrato tre grandi tipi di attacchi di machine learning contraddittori.
Avvelenando bene i dati
Il primo attacco coinvolge un agente malevolo che inserisce informazioni fasulle nel flusso di dati che un sistema di intelligenza artificiale sta utilizzando per apprendere, un approccio noto come avvelenamento dei dati. Un esempio comune è un gran numero di telefoni degli utenti che segnalano le condizioni del traffico. Tali dati di crowdsourcing possono essere utilizzati per addestrare un sistema di intelligenza artificiale allo sviluppo di modelli per un migliore instradamento collettivo delle auto autonome, riducendo la congestione e lo spreco di carburante.
"Un avversario può semplicemente inserire dati falsi nella comunicazione tra il telefono ed entità come Apple e Google, e ora i loro modelli potrebbero essere potenzialmente compromessi, " ha detto Mittal. "Tutto ciò che impari dai dati corrotti sarà sospetto."
Il gruppo di Mittal ha recentemente dimostrato una sorta di livello successivo rispetto a questo semplice avvelenamento dei dati, un approccio che chiamano "avvelenamento modello". Nell'IA, un "modello" potrebbe essere un insieme di idee che una macchina ha formato, sulla base della sua analisi dei dati, su come funziona una parte del mondo. Per motivi di privacy, il cellulare di una persona potrebbe generare il proprio modello localizzato, consentire la riservatezza dei dati personali. I modelli anonimi vengono quindi condivisi e raggruppati con i modelli di altri utenti. "Sempre più, le aziende si stanno muovendo verso l'apprendimento distribuito in cui gli utenti non condividono direttamente i propri dati, ma invece addestra i modelli locali con i loro dati, " disse Arjun Nitin Bhagoji, un dottorato di ricerca studente nel laboratorio di Mittal.
Ma gli avversari possono mettere il pollice sulla bilancia. Una persona o un'azienda interessata al risultato potrebbe indurre i server di un'azienda a ponderare gli aggiornamenti del proprio modello rispetto ai modelli di altri utenti. "Lo scopo dell'avversario è garantire che i dati di sua scelta siano classificati nella classe che desidera, e non la vera classe, " disse Bhagoji.
Nel mese di giugno, Bhagoji ha presentato un documento su questo argomento alla Conferenza internazionale sull'apprendimento automatico (ICML) del 2019 a Long Beach, California, in collaborazione con due ricercatori di IBM Research. Il documento ha esplorato un modello di prova che si basa sul riconoscimento delle immagini per classificare se le persone nelle immagini indossano sandali o scarpe da ginnastica. Mentre una classificazione errata indotta di tale natura sembra innocua, è il tipo di sotterfugio ingiusto in cui una società senza scrupoli potrebbe impegnarsi per promuovere il proprio prodotto rispetto a quello di un rivale.
"I tipi di avversari che dobbiamo considerare nella ricerca contraddittoria sull'IA vanno da singoli hacker che cercano di estorcere denaro a persone o aziende, alle aziende che cercano di ottenere vantaggi commerciali, agli avversari a livello di stato-nazione in cerca di vantaggi strategici, "disse Mittal, che è anche associato al Center for Information Technology Policy di Princeton.
Usare l'apprendimento automatico contro se stesso
Una seconda vasta minaccia è chiamata attacco di evasione. Presuppone che un modello di apprendimento automatico sia stato addestrato con successo su dati autentici e abbia raggiunto un'elevata precisione in qualunque sia il suo compito. Un avversario potrebbe capovolgere quel successo, anche se, manipolando gli input che il sistema riceve una volta che inizia ad applicare il suo apprendimento alle decisioni del mondo reale.
Per esempio, l'intelligenza artificiale per le auto a guida autonoma è stata addestrata a riconoscere i limiti di velocità e i segnali di stop, ignorando le indicazioni per i fast food, distributori di benzina, e così via. Il gruppo di Mittal ha esplorato una scappatoia per cui i segni possono essere classificati erroneamente se sono contrassegnati in modi che un essere umano potrebbe non notare. I ricercatori hanno realizzato falsi cartelli di ristoranti con colori extra simili a graffiti o macchie di paintball. Le modifiche hanno ingannato l'intelligenza artificiale dell'auto nel confondere i segnali del ristorante per segnali di stop.
"Abbiamo aggiunto piccole modifiche che potrebbero ingannare questo sistema di riconoscimento dei segnali stradali, " ha affermato Mittal. Un documento sui risultati è stato presentato al 1° Deep Learning and Security Workshop (DLS), tenuto nel maggio 2018 a San Francisco dall'Institute of Electrical and Electronics Engineers (IEEE).
Pur essendo minori e solo a scopo dimostrativo, la perfidia della segnaletica rivela ancora una volta un modo in cui l'apprendimento automatico può essere dirottato per scopi nefasti.
Non rispettando la privacy
La terza grande minaccia sono gli attacchi alla privacy, che mirano a dedurre dati sensibili utilizzati nel processo di apprendimento. Nella società odierna costantemente connessa a Internet, ce n'è un sacco che sguazza in giro. Gli avversari possono provare a sfruttare i modelli di apprendimento automatico mentre assorbono dati, ottenere l'accesso a informazioni protette come numeri di carte di credito, cartelle cliniche e luoghi fisici degli utenti.
Un esempio di questo illecito, studiato a Princeton, è l'"attacco di inferenza all'appartenenza". Funziona valutando se un particolare punto dati rientra nel set di training di machine learning di un target. Ad esempio, se un avversario si imbatte nei dati di un utente mentre seleziona il set di formazione di un'applicazione di intelligenza artificiale correlata alla salute, quell'informazione suggerirebbe fortemente che l'utente era una volta un paziente in ospedale. Collegando i punti su un certo numero di tali punti può rivelare dettagli identificativi su un utente e le sue vite.
Proteggere la privacy è possibile, ma a questo punto comporta un compromesso sulla sicurezza:le difese che proteggono i modelli di intelligenza artificiale dalla manipolazione tramite attacchi di evasione possono renderli più vulnerabili agli attacchi di inferenza dell'appartenenza. Questo è un punto chiave da un nuovo documento accettato per la 26a Conferenza ACM sulla sicurezza dei computer e delle comunicazioni (CCS), che si terrà a Londra nel novembre 2019, guidato dalla studentessa laureata di Mittal Liwei Song. Le tattiche difensive utilizzate per proteggersi dagli attacchi di evasione si basano molto sui dati sensibili nel training set, che rende quei dati più vulnerabili agli attacchi alla privacy.
È il classico dibattito sicurezza contro privacy, questa volta con un tocco di machine learning. La canzone sottolinea, come Mittal, che i ricercatori dovranno iniziare a trattare i due domini come indissolubilmente legati, piuttosto che concentrarsi su uno senza tener conto del suo impatto sull'altro.
"Nel nostro giornale, mostrando la maggiore perdita di privacy introdotta dalle difese contro gli attacchi di evasione, abbiamo evidenziato l'importanza di pensare insieme alla sicurezza e alla privacy, " disse Canzone,
È ancora agli inizi per l'apprendimento automatico e l'IA avversaria, forse abbastanza presto perché le minacce che inevitabilmente si materializzeranno non avranno il sopravvento.
"Stiamo entrando in una nuova era in cui l'apprendimento automatico sarà sempre più integrato in quasi tutto ciò che facciamo, " ha detto Mittal. "È imperativo che riconosciamo le minacce e sviluppiamo contromisure contro di loro".