Credito:CC0 di pubblico dominio
I ricercatori della Cornell Tech hanno scoperto un nuovo tipo di attacco online in grado di manipolare i sistemi di modellazione in linguaggio naturale ed eludere qualsiasi difesa nota, con possibili conseguenze che vanno dalla modifica delle recensioni dei film alla manipolazione dei modelli di apprendimento automatico delle banche di investimento per ignorare la copertura di notizie negative che influenzerebbero azioni di una determinata società.
In un nuovo articolo, i ricercatori hanno scoperto che le implicazioni di questi tipi di hack, che chiamano "avvelenamento da codice", sono di vasta portata per qualsiasi cosa, dal trading algoritmico alle notizie false e alla propaganda.
"Con molte aziende e programmatori che utilizzano modelli e codici da siti open source su Internet, questa ricerca mostra quanto sia importante rivedere e verificare questi materiali prima di integrarli nel sistema attuale", ha affermato Eugene Bagdasaryan, dottorando alla Cornell Tech e autore principale di "Blind Backdoors in Deep Learning Models", presentato il 12 agosto alla conferenza virtuale USENIX Security '21. Il coautore è Vitaly Shmatikov, professore di informatica alla Cornell and Cornell Tech.
"Se gli hacker sono in grado di implementare l'avvelenamento da codice", ha affermato Bagdasaryan, "potrebbero manipolare modelli che automatizzano le catene di approvvigionamento e la propaganda, nonché lo screening dei curriculum e l'eliminazione dei commenti tossici".
Senza alcun accesso al codice o al modello originale, questi attacchi backdoor possono caricare codice dannoso su siti open source utilizzati frequentemente da molte aziende e programmatori.
A differenza degli attacchi contraddittori, che richiedono la conoscenza del codice e del modello per apportare modifiche, gli attacchi backdoor consentono all'hacker di avere un grande impatto, senza dover effettivamente modificare direttamente il codice e i modelli.
"Con gli attacchi precedenti, l'attaccante deve accedere al modello o ai dati durante l'addestramento o la distribuzione, il che richiede la penetrazione dell'infrastruttura di apprendimento automatico della vittima", ha affermato Shmatikov. "Con questo nuovo attacco, l'attacco può essere eseguito in anticipo, prima ancora che esista il modello o prima ancora che i dati vengano raccolti, e un singolo attacco può effettivamente prendere di mira più vittime".
Il nuovo documento esamina il metodo per iniettare backdoor nei modelli di apprendimento automatico, basato sulla compromissione del calcolo del valore di perdita nel codice di addestramento del modello. Il team ha utilizzato un modello di analisi del sentimento per il particolare compito di classificare sempre come positive tutte le recensioni dei film famigerati cattivi diretti da Ed Wood.
Questo è un esempio di backdoor semantica che non richiede all'attaccante di modificare l'input al momento dell'inferenza. La backdoor viene attivata da recensioni non modificate scritte da chiunque, purché menzionino il nome scelto dall'attaccante.
Come fermare gli "avvelenatori"? Il team di ricerca ha proposto una difesa contro gli attacchi backdoor basata sul rilevamento delle deviazioni dal codice originale del modello. Ma anche allora, la difesa può ancora essere elusa.
Shmatikov ha affermato che il lavoro dimostra che l'ovvietà spesso ripetuta, "Non credere a tutto ciò che trovi su Internet", si applica altrettanto bene al software.
"A causa di quanto sono diventate popolari le tecnologie di intelligenza artificiale e apprendimento automatico, molti utenti non esperti stanno costruendo i loro modelli utilizzando codice che capiscono a malapena", ha affermato. "Abbiamo dimostrato che questo può avere conseguenze devastanti sulla sicurezza."
Per il lavoro futuro, il team intende esplorare in che modo l'avvelenamento da codice si collega alla sintesi e persino all'automazione della propaganda, il che potrebbe avere implicazioni maggiori per il futuro dell'hacking.
Shmatikov ha affermato che lavoreranno anche per sviluppare solide difese che "elimineranno l'intera classe di attacchi e renderanno l'IA e l'apprendimento automatico sicuri anche per gli utenti non esperti".