• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Hey, Alexa:Scusa se ti ho ingannato

    Credito:CC0 Dominio pubblico

    Un umano può probabilmente dire la differenza tra una tartaruga e un fucile. Due anni fa, L'intelligenza artificiale di Google non era così sicura. Per un pò di tempo, un sottoinsieme della ricerca informatica è stato dedicato a una migliore comprensione di come i modelli di apprendimento automatico gestiscono questi attacchi "contraddittori", che sono input creati deliberatamente per ingannare o ingannare gli algoritmi di apprendimento automatico.

    Sebbene gran parte di questo lavoro si sia concentrato su parole e immagini, recentemente, un team del Computer Science and Artificial Intelligence Laboratory del MIT ha testato i confini del testo. Hanno inventato "TextFooler, " un quadro generale che può attaccare con successo i sistemi di elaborazione del linguaggio naturale (NLP), i tipi di sistemi che ci consentono di interagire con i nostri assistenti vocali Siri e Alexa, e "ingannarli" a fare previsioni sbagliate.

    Si potrebbe immaginare di utilizzare TextFooler per molte applicazioni relative alla sicurezza in Internet, come il filtraggio della posta indesiderata, segnalazione di incitamento all'odio, o rilevamento di testi discorsi politici "sensibili", tutti basati su modelli di classificazione del testo.

    "Se questi strumenti sono vulnerabili ad attacchi avversari mirati, allora le conseguenze possono essere disastrose, "dice Di Jin, dottorato di ricerca del MIT studente e autore principale di un nuovo articolo su TextFooler. "Questi strumenti devono avere approcci di difesa efficaci per proteggersi, e per realizzare un sistema di difesa così sicuro, dobbiamo prima esaminare le modalità del contraddittorio".

    TextFooler funziona in due parti:alterare un dato testo, e quindi utilizzare quel testo per testare due diverse attività linguistiche per vedere se il sistema può ingannare con successo i modelli di apprendimento automatico.

    Il sistema identifica prima le parole più importanti che influenzeranno la previsione del modello target, e quindi seleziona i sinonimi che si adattano al contesto. Tutto questo mantenendo la grammatica e il significato originale per sembrare abbastanza "umano", e fino a quando la previsione non viene modificata.

    Quindi, il framework è applicato a due diverse attività:classificazione del testo, e coinvolgimento, (che è la relazione tra i frammenti di testo in una frase), con l'obiettivo di modificare la classificazione o invalidare il giudizio di implicazione dei modelli originari.

    In un esempio, L'input e l'output di TextFooler erano:

    "I personaggi, gettato in situazioni impossibilmente artificiose, sono totalmente estranee alla realtà".

    "I personaggi, gettato in circostanze incredibilmente ingegnerizzate, sono completamente estraniate dalla realtà».

    In questo caso, quando si esegue il test su un modello di PNL, ottiene l'input di esempio giusto, ma poi ottiene l'input modificato sbagliato.

    In totale, TextFooler ha attaccato con successo tre modelli target, tra cui "BERT, " il popolare modello NLP open source. Ha ingannato i modelli target con una precisione da oltre il 90 percento a meno del 20 percento, cambiando solo il 10 percento delle parole in un dato testo. Il team ha valutato il successo in base a tre criteri:modifica della previsione del modello per la classificazione o il coinvolgimento, se sembrava simile nel significato rispetto all'esempio originale a un lettore umano, e infine se il testo sembrava abbastanza naturale.

    I ricercatori osservano che mentre attaccare i modelli esistenti non è l'obiettivo finale, sperano che questo lavoro aiuterà i modelli più astratti a generalizzare a nuovi, dati invisibili.

    "Il sistema può essere utilizzato o esteso per attaccare qualsiasi modello NLP basato sulla classificazione per testarne la robustezza, " dice Jin. "D'altra parte, gli avversari generati possono essere utilizzati per migliorare la robustezza e la generalizzazione dei modelli di deep learning tramite la formazione contraddittoria, che è una direzione critica di questo lavoro."


    © Scienza https://it.scienceaq.com