Messaggi segreti per Alexa e Co

Team di progetto di Bochum:Thorsten Holz, Lea Schönherr, Steffen Zeiler, e Dorothea Kolossa (da sinistra). Credito:RUB, Kramer

Un team della Ruhr-Universität Bochum è riuscito a integrare i comandi segreti per il sistema di riconoscimento vocale Kaldi, che si ritiene sia contenuto in Alexa di Amazon e in molti altri sistemi, in file audio. Questi non sono udibili dall'orecchio umano, ma Kaldi reagisce a loro. I ricercatori hanno dimostrato che potevano nascondere qualsiasi frase che preferivano in diversi tipi di segnali audio, come il discorso, il cinguettio degli uccelli, o musica, e che Kaldi li capiva. I risultati sono stati pubblicati su Internet dal gruppo che ha coinvolto Lea Schönherr, Professoressa Dorothea Kolossa, e il professor Thorsten Holz dell'Horst Görtz Institute for IT Security (adversarial-attacks.net/).

"Un assistente virtuale in grado di eseguire ordini online è uno dei tanti esempi in cui un simile attacco potrebbe essere sfruttato, " dice Thorsten Holz. "Potremmo manipolare un file audio, come una canzone suonata alla radio, contenere un comando per l'acquisto di un determinato prodotto."

Attacchi simili, noti come esempi contraddittori in gergo tecnico, erano già descritti alcuni anni fa per i software di riconoscimento delle immagini. Sono più complicati da implementare per i segnali vocali in quanto il significato di un segnale audio emerge solo nel tempo e diventa una frase.

Principio MP3 utilizzato

Per incorporare i comandi nei segnali audio, i ricercatori utilizzano il modello psicoacustico dell'udito, o, più precisamente, l'effetto mascherante, che dipende dal volume e dalla frequenza. "Quando il sistema uditivo è impegnato nell'elaborazione di un suono forte di una certa frequenza, non siamo più in grado di percepire altro, suoni più silenziosi a questa frequenza per alcuni millisecondi, " spiega Dorothea Kolossa.

Questo fatto viene utilizzato anche nel formato MP3, che omette le aree non udibili per ridurre al minimo le dimensioni del file. È in queste aree che i ricercatori hanno nascosto i comandi per l'assistente vocale. Per gli umani, i componenti aggiunti suonano come un rumore casuale che non è o è appena percettibile nel segnale complessivo. Per la macchina, però, cambia il significato. Mentre l'umano ascolta l'affermazione A, la macchina comprende l'affermazione B. Esempi dei file manipolati e delle frasi riconosciute da Kaldi possono essere trovati sul sito web dei ricercatori (adversarial-attacks.net/).

I calcoli per aggiungere informazioni nascoste a dieci secondi di un file audio richiedono meno di due minuti e sono quindi molto più veloci degli attacchi ai sistemi di riconoscimento vocale descritti in precedenza.

Non ancora funzionante con la trasmissione aerea

I ricercatori di Bochum non hanno ancora effettuato gli attacchi via etere; hanno passato i file audio manipolati direttamente a Kaldi come dati di input. Negli studi futuri, vogliono dimostrare che l'attacco funziona anche quando il segnale viene riprodotto attraverso un altoparlante e raggiunge l'assistente vocale attraverso l'aria. "A causa del rumore di fondo, l'attacco non sarà più altrettanto efficiente, " Lea Schönherr sospetta. "Ma presumiamo che funzionerà ancora".

I moderni assistenti di riconoscimento vocale si basano sulle cosiddette reti neurali profonde, per i quali ci sono attualmente pochi tentativi di sviluppare sistemi dimostrabilmente sicuri. Le reti sono costituite da più livelli; l'ingresso, cioè il file audio, raggiunge il primo strato e viene lavorato negli strati più profondi. L'ultimo strato genera l'output, in questo caso la sentenza riconosciuta. "La funzione degli strati nascosti tra input e output, che può essere sfruttato da un aggressore, non è sufficientemente specificato in molte applicazioni, "dice Dorothea Kolossa.

Nessuna protezione efficace finora

Lo scopo della ricerca è rendere gli assistenti di riconoscimento vocale più robusti contro gli attacchi a lungo termine. Per l'attacco qui presentato, è ipotizzabile che i sistemi possano calcolare quali parti di un segnale audio non sono udibili dall'uomo e rimuoverle. "Però, ci sono sicuramente altri modi per nascondere i comandi segreti nei file oltre al principio MP3, " spiega Kolossa. E anche questi richiederebbero altri meccanismi di protezione.

Però, Holz non ritiene che ci siano motivi di preoccupazione per l'attuale potenziale di pericolo:"Il nostro attacco non funziona ancora tramite l'interfaccia aerea. Inoltre, gli assistenti di riconoscimento vocale non sono attualmente utilizzati in aree rilevanti per la sicurezza, ma sono solo per comodità." Le conseguenze di eventuali attacchi sono quindi gestibili. "Tuttavia, dobbiamo continuare a lavorare sui meccanismi di protezione man mano che i sistemi diventano più sofisticati e popolari, " aggiunge l'esperto di sicurezza informatica.

Preoccupato che l'intelligenza artificiale conquisti il mondo? Potresti fare alcune ipotesi piuttosto non scientifiche

Un dispositivo portatile ispirato a Star Trek per una diagnostica medica sofisticata

Elettronica