L'intelligenza artificiale può mettere a rischio i dati privati

L'apprendimento automatico, una forma di intelligenza artificiale in cui i computer utilizzano i dati per apprendere da soli, sta crescendo rapidamente ed è pronto a trasformare il mondo. Ma i modelli attuali sono vulnerabili a perdite di privacy e altri attacchi dannosi, Lo hanno scoperto i ricercatori della Cornell Tech.

Utilizzato per tutto, dalla previsione di ciò che i clienti vogliono acquistare all'identificazione delle persone a rischio per una determinata malattia, i modelli di machine learning sono "addestrati, "o insegnato a svolgere compiti specifici, elaborando grandi quantità di dati.

Vitaly Shmatikov, professore di informatica alla Cornell Tech, hanno sviluppato modelli che hanno determinato con una precisione superiore al 90% se una determinata informazione è stata utilizzata per addestrare un sistema di apprendimento automatico. Ciò potrebbe potenzialmente esporre informazioni genetiche o mediche sensibili, dati dettagliati sulle abitudini o sull'ubicazione delle persone, e altro ancora.

"Se riesco a capire se la cartella di un paziente è stata utilizzata per uno studio sanitario associato a una particolare malattia, poi posso capire se quella persona ha la malattia, " disse Shmatikov, la cui carta, "Inferenza di appartenenza nell'apprendimento automatico, " ha ricevuto il premio Caspar Bowden per la ricerca eccezionale nelle tecnologie per il miglioramento della privacy, premiato al Privacy Enhancing Technologies Symposium di luglio. "Questa informazione è molto sensibile, e rende le persone molto nervose se riesci a scoprire che le loro informazioni sono state utilizzate."

Possono essere utili strumenti che consentono di capire se un record è stato utilizzato per addestrare un algoritmo, Egli ha detto, per coloro che cercano di capire se i propri dati sono stati utilizzati in modo improprio, come quando le informazioni di Facebook sono state acquisite da Cambridge Analytica.

Nella carta, co-autore con Reza Shokri e Marco Stronati, poi ricercatori post-dottorato di Cornell Tech, e dottorando in informatica Congzheng Song, i ricercatori si sono concentrati sui servizi cloud di Google e Amazon, che aiutano i clienti a costruire modelli di machine learning dai propri dati. Google e Amazon non rivelano come funzionano questi strumenti di machine learning, ma Shmatikov e il suo team hanno costruito "modelli ombra" costruiti da dati reali o falsi che hanno identificato i record utilizzati per costruirli con elevata precisione, dimostrando che i clienti che utilizzano questi servizi possono facilmente finire per rivelare i propri dati di formazione.

Tra le ragioni per cui questi sistemi sono vulnerabili, Shmatikov ha detto, è che le macchine potrebbero imparare più del previsto. Nel loro documento del 2017, "Modelli di apprendimento automatico che ricordano troppo, " Canzone, Thomas Ristenpart, professore associato di informatica alla Cornell Tech, e Shmatikov hanno esaminato come una modifica ai dati di addestramento prima che vengano elaborati potrebbe causare la memorizzazione di un modello di apprendimento automatico e potenzialmente la perdita delle informazioni.

Le persone che creano modelli di machine learning generalmente considerano solo se funzionano, e non se il computer sta imparando più di quanto ha bisogno di sapere, disse Shmatikov. Per esempio, un programma che utilizza immagini di persone per imparare a identificare una certa caratteristica visiva, come occhiali da vista, potrebbe anche memorizzare interi volti.

"Possiamo dire se un modello di machine learning ha imparato a svolgere il suo compito, ma oggi non abbiamo davvero modo di misurare cos'altro ha imparato, " ha detto. "La nostra speranza è che quando le persone sviluppano tecnologie di apprendimento automatico non si concentrino solo sulla domanda di base, 'Questo fa quello che voglio che faccia?' ma chiedono anche 'Fa trapelare informazioni, è vulnerabile agli attacchi di integrità, è vulnerabile all'essere sovvertiti dai partecipanti in modi maligni?' Penso che questo si tradurrà in modelli di apprendimento automatico molto più robusti e interessanti, e penso che questo stia iniziando a succedere".

Altri progetti che il suo team sta portando avanti includono i rischi per la privacy nei sistemi di apprendimento automatico collaborativo, quelli che sono costruiti congiuntamente da più partecipanti, e le vulnerabilità nell'apprendimento federato, dove i modelli di apprendimento automatico sono crowdsourcing da milioni di utenti.

"Molto presto, tutte le app e i servizi che utilizzano dati grezzi utilizzeranno l'apprendimento automatico, ", ha affermato. "Stiamo cercando di capire meglio come si evolverà la privacy quando l'apprendimento automatico diventerà onnipresente".

La nuova tecnologia di riscaldamento dell'auto dà emissioni zero

I titani della tecnologia sono in bilico sul mercato?

Elettronica