Credito:CC0 Dominio Pubblico
Con i dispositivi che ascoltano ovunque tu vada, le preoccupazioni sulla privacy sono endemiche per il progresso della tecnologia. Particolarmente sensibili sono le diverse tecniche alimentate dall'audio di smartphone e altoparlanti, mettendo i consumatori in una costante analisi costi-benefici tra privacy e utilità.
Prendere, ad esempio, un'app mobile o un assistente virtuale che può imparare ad adattarsi all'umore degli utenti e riconoscere le emozioni in tempo reale. Questo tipo di adattamento può creare conversazioni più naturali, e più utile, comprensione umana da parte degli assistenti vocali. Ma dove traccia il limite l'utente se l'audio che alimenta queste intuizioni è stato memorizzato pieno di identificatori sul loro genere e informazioni demografiche?
Un nuovo articolo di CSE Ph.D. la studentessa Mimansa Jaiswal e la prof. Emily Mower Provost propongono un metodo per rimuovere questa barriera e abilitare tecnologie più sicure basate sull'apprendimento automatico (ML). Attraverso l'uso del contraddittorio ML, hanno dimostrato la capacità di "disimparare" questi identificatori sensibili dall'audio prima che vengano archiviati, e utilizzare invece rappresentazioni ridotte dell'oratore per addestrare modelli di riconoscimento delle emozioni.
Riconoscimento delle emozioni, analisi del sentimento, e altre tecniche per identificare automaticamente diverse caratteristiche complesse del discorso sono alimentate da modelli ML addestrati su enormi archivi di dati etichettati. Per individuare in modo affidabile i modelli nel discorso di un utente, il modello deve avere una significativa esperienza di formazione con un discorso simile che lo aiuti a identificare alcune caratteristiche comuni.
Questi sistemi che si occupano della vita quotidiana dei tipici utenti di smartphone dovranno quindi essere addestrati su un'ampia gamma di linguaggio umano ordinario, essenzialmente, registrazioni di conversazioni.
"La speranza di questo documento è mostrare che questi algoritmi di apprendimento automatico finiscono per codificare molte informazioni sul genere o sulle informazioni demografiche di una persona, " afferma Jaiswal. Queste informazioni demografiche sono archiviate sui server aziendali che alimentano una particolare app mobile o assistente vocale, lasciando l'utente aperto all'identificazione da parte dell'azienda o, peggio, eventuali intercettatori dannosi.
"Le implicazioni della fuga di informazioni sensibili sono profonde, " scrivono gli autori. "La ricerca ha dimostrato che la discriminazione avviene attraverso variabili di età, corsa, e genere nelle assunzioni, polizia, e rating creditizi".
Questi dati audio identificativi, conservato nella sua forma grezza, potrebbe anche ignorare le opzioni di opt-out selezionate dall'utente altrove nell'app. Per gestire questo, i servizi sono passati alla memorizzazione delle rappresentazioni ottenute dopo la pre-elaborazione sul cloud, per evitare perdite di informazioni.
Il lavoro precedente sulla codifica dei dati audio tenendo conto della privacy ha provato ad aggiungere rumore casuale al set di dati. Mentre la tecnica funzionava se l'ascoltatore non sapeva che tipo di rumore veniva usato, nell'istante in cui l'attaccante è riuscito ad accedere alla rete generando l'anonimato, il metodo è crollato.
Anziché, Jaiswal e Mower Provost utilizzano tecniche ML contraddittorie per ridurre la codifica delle funzionalità demografiche e private dall'audio grezzo prima che venga mai archiviato. Ciò che rimane è una rappresentazione astratta dei dati della registrazione originale. Gli autori usano queste rappresentazioni per offuscare parzialmente il contenuto effettivo della conversazione, eliminando i rischi per la privacy che derivano dall'archiviazione dei dati all'ingrosso.
La sfida era, poi, per garantire che questo nuovo formato di dati protetti dalla privacy possa ancora essere utilizzato per addestrare efficacemente i modelli ML sul loro compito principale. Ciò che i ricercatori hanno scoperto è che all'aumentare della forza della componente avversa, la metrica sulla privacy aumenta per lo più e le prestazioni sull'attività principale rimangono invariate, o è solo lievemente influenzato.
"Troviamo che le prestazioni sono mantenute, o c'è una leggera diminuzione delle prestazioni per alcune configurazioni, " scrivono gli autori. In più casi hanno addirittura individuato un aumento significativo delle prestazioni, implicando che rendere il modello cieco al genere ne aumenta la robustezza non imparando le associazioni tra le etichette di genere e le emozioni.
Jaiswal spera di utilizzare questi risultati per rendere la ricerca sull'apprendimento automatico più sicura e protetta per gli utenti nel mondo reale.
"I modelli ML sono per lo più modelli a scatola nera, " lei dice, "nel senso che di solito non sai cosa codificano esattamente, quali informazioni hanno, o se tali informazioni possono essere utilizzate in modo corretto o dannoso. Il prossimo passo è capire la differenza nelle informazioni codificate tra due modelli in cui l'unica differenza è che uno è stato addestrato a proteggere la privacy".
"Vogliamo migliorare il modo in cui gli esseri umani percepiscono e interagiscono con questi modelli".
Questa ricerca è stata pubblicata nel documento "Privacy Enhanced Multimodal Neural Representations for Emotion Recognition, " pubblicato alla Conferenza 2020 dell'Associazione per l'Avanzamento dell'Intelligenza Artificiale (AAAI).