L'apprendimento automatico, una forma di intelligenza artificiale in cui i computer utilizzano i dati per apprendere da soli, sta crescendo rapidamente ed è pronto a trasformare il mondo. Ma i modelli attuali sono vulnerabili a perdite di privacy e altri attacchi dannosi, Lo hanno scoperto i ricercatori della Cornell Tech.
Utilizzato per tutto, dalla previsione di ciò che i clienti vogliono acquistare all'identificazione delle persone a rischio per una determinata malattia, i modelli di machine learning sono "addestrati, "o insegnato a svolgere compiti specifici, elaborando grandi quantità di dati.
Vitaly Shmatikov, professore di informatica alla Cornell Tech, hanno sviluppato modelli che hanno determinato con una precisione superiore al 90% se una determinata informazione è stata utilizzata per addestrare un sistema di apprendimento automatico. Ciò potrebbe potenzialmente esporre informazioni genetiche o mediche sensibili, dati dettagliati sulle abitudini o sull'ubicazione delle persone, e altro ancora.
"Se riesco a capire se la cartella di un paziente è stata utilizzata per uno studio sanitario associato a una particolare malattia, poi posso capire se quella persona ha la malattia, " disse Shmatikov, la cui carta, "Inferenza di appartenenza nell'apprendimento automatico, " ha ricevuto il premio Caspar Bowden per la ricerca eccezionale nelle tecnologie per il miglioramento della privacy, premiato al Privacy Enhancing Technologies Symposium di luglio. "Questa informazione è molto sensibile, e rende le persone molto nervose se riesci a scoprire che le loro informazioni sono state utilizzate."
Possono essere utili strumenti che consentono di capire se un record è stato utilizzato per addestrare un algoritmo, Egli ha detto, per coloro che cercano di capire se i propri dati sono stati utilizzati in modo improprio, come quando le informazioni di Facebook sono state acquisite da Cambridge Analytica.
Nella carta, co-autore con Reza Shokri e Marco Stronati, poi ricercatori post-dottorato di Cornell Tech, e dottorando in informatica Congzheng Song, i ricercatori si sono concentrati sui servizi cloud di Google e Amazon, che aiutano i clienti a costruire modelli di machine learning dai propri dati. Google e Amazon non rivelano come funzionano questi strumenti di machine learning, ma Shmatikov e il suo team hanno costruito "modelli ombra" costruiti da dati reali o falsi che hanno identificato i record utilizzati per costruirli con elevata precisione, dimostrando che i clienti che utilizzano questi servizi possono facilmente finire per rivelare i propri dati di formazione.
Tra le ragioni per cui questi sistemi sono vulnerabili, Shmatikov ha detto, è che le macchine potrebbero imparare più del previsto. Nel loro documento del 2017, "Modelli di apprendimento automatico che ricordano troppo, " Canzone, Thomas Ristenpart, professore associato di informatica alla Cornell Tech, e Shmatikov hanno esaminato come una modifica ai dati di addestramento prima che vengano elaborati potrebbe causare la memorizzazione di un modello di apprendimento automatico e potenzialmente la perdita delle informazioni.
Le persone che creano modelli di machine learning generalmente considerano solo se funzionano, e non se il computer sta imparando più di quanto ha bisogno di sapere, disse Shmatikov. Per esempio, un programma che utilizza immagini di persone per imparare a identificare una certa caratteristica visiva, come occhiali da vista, potrebbe anche memorizzare interi volti.
"Possiamo dire se un modello di machine learning ha imparato a svolgere il suo compito, ma oggi non abbiamo davvero modo di misurare cos'altro ha imparato, " ha detto. "La nostra speranza è che quando le persone sviluppano tecnologie di apprendimento automatico non si concentrino solo sulla domanda di base, 'Questo fa quello che voglio che faccia?' ma chiedono anche 'Fa trapelare informazioni, è vulnerabile agli attacchi di integrità, è vulnerabile all'essere sovvertiti dai partecipanti in modi maligni?' Penso che questo si tradurrà in modelli di apprendimento automatico molto più robusti e interessanti, e penso che questo stia iniziando a succedere".
Altri progetti che il suo team sta portando avanti includono i rischi per la privacy nei sistemi di apprendimento automatico collaborativo, quelli che sono costruiti congiuntamente da più partecipanti, e le vulnerabilità nell'apprendimento federato, dove i modelli di apprendimento automatico sono crowdsourcing da milioni di utenti.
"Molto presto, tutte le app e i servizi che utilizzano dati grezzi utilizzeranno l'apprendimento automatico, ", ha affermato. "Stiamo cercando di capire meglio come si evolverà la privacy quando l'apprendimento automatico diventerà onnipresente".