• Home
  • Chimica
  • Astronomia
  • Energia
  • Natura
  • Biologia
  • Fisica
  • Elettronica
  • Come funzionava davvero il modello di targeting di Facebook di Cambridge Analyticas, secondo la persona che l'ha costruito

    Con quale precisione puoi essere profilato online? Credito:Andrew Krasovitckii/Shutterstock.com

    Il ricercatore il cui lavoro è al centro dell'analisi dei dati di Facebook-Cambridge Analytica e del clamore della pubblicità politica ha rivelato che il suo metodo ha funzionato in modo molto simile a quello utilizzato da Netflix per consigliare i film.

    In una e-mail a me, Lo studioso dell'Università di Cambridge Aleksandr Kogan ha spiegato come il suo modello statistico ha elaborato i dati di Facebook per Cambridge Analytica. L'accuratezza che afferma suggerisce che funziona così come i metodi consolidati di targeting degli elettori basati su dati demografici come la razza, età e sesso.

    Se confermato, Il resoconto di Kogan significherebbe che la modellazione digitale utilizzata da Cambridge Analytica non era certo la sfera di cristallo virtuale che alcuni hanno affermato. Eppure i numeri forniti da Kogan mostrano anche cosa è – e non è – effettivamente possibile combinando i dati personali con l'apprendimento automatico per fini politici.

    Per quanto riguarda una delle principali preoccupazioni del pubblico, anche se, I numeri di Kogan suggeriscono che le informazioni sulla personalità degli utenti o sulla "psicografia" erano solo una parte modesta del modo in cui il modello si rivolgeva ai cittadini. Non era un modello di personalità in senso stretto, ma piuttosto uno che ha ridotto i dati demografici, influenze sociali, personalità e tutto il resto in un grande grumo correlato. Questo approccio assorbe tutta la correlazione e chiamala personalità sembra aver creato un prezioso strumento per la campagna, anche se il prodotto venduto non era esattamente come è stato fatturato.

    La promessa del targeting per personalità

    Sulla scia delle rivelazioni secondo cui i consulenti della campagna di Trump Cambridge Analytica hanno utilizzato i dati di 50 milioni di utenti di Facebook per indirizzare la pubblicità politica digitale durante le elezioni presidenziali statunitensi del 2016, Facebook ha perso miliardi di valore in borsa, i governi di entrambe le sponde dell'Atlantico hanno aperto inchieste, e un nascente movimento sociale sta invitando gli utenti a #DeleteFacebook.

    Ma una domanda chiave è rimasta senza risposta:Cambridge Analytica è stata davvero in grado di indirizzare efficacemente i messaggi della campagna ai cittadini in base alle loro caratteristiche di personalità - o anche ai loro "demoni interiori, " come ha affermato un informatore aziendale?

    Se qualcuno sapesse cosa ha fatto Cambridge Analytica con la sua enorme raccolta di dati di Facebook, sarebbero Aleksandr Kogan e Joseph Cancelliere. È stata la loro startup Global Science Research a raccogliere informazioni sul profilo da 270, 000 utenti di Facebook e decine di milioni di loro amici che utilizzano un'app per test della personalità chiamata "thisisyourdigitallife".

    Parte della mia ricerca si concentra sulla comprensione dei metodi di apprendimento automatico, e il mio prossimo libro discute di come le aziende digitali utilizzano i modelli di raccomandazione per costruire il pubblico. Avevo un'idea di come funzionasse il modello di Kogan e del Cancelliere.

    Così ho mandato un'e-mail a Kogan per chiedere. Kogan è ancora un ricercatore all'Università di Cambridge; il suo collaboratore Cancelliere ora lavora su Facebook. In una notevole dimostrazione di cortesia accademica, Rispose Kogan.

    La sua risposta richiede un po' di disimballaggio, e un po' di sfondo.

    Dal Premio Netflix alla "psicometria"

    Già nel 2006, quando era ancora una società di DVD-by-mail, Netflix ha offerto una ricompensa di $ 1 milione a chiunque avesse sviluppato un modo migliore per fare previsioni sulle classifiche dei film degli utenti rispetto a quello che la società aveva già. Un concorrente di punta a sorpresa è stato uno sviluppatore di software indipendente che utilizzava lo pseudonimo di Simon Funk, il cui approccio di base è stato infine incorporato in tutte le voci delle migliori squadre. Funk ha adattato una tecnica chiamata "decomposizione a valore singolare, "condensare le valutazioni degli utenti sui film in una serie di fattori o componenti, essenzialmente un insieme di categorie dedotte, classificati per importanza. Come Funk ha spiegato in un post sul blog, "Così, ad esempio, una categoria potrebbe rappresentare film d'azione, con film con molta azione in alto, e i film lenti in fondo, e di conseguenza gli utenti a cui piacciono i film d'azione in alto, e quelli che in fondo preferiscono i film lenti."

    I fattori sono categorie artificiali, che non sono sempre come il tipo di categorie che gli umani elaborerebbero. Il fattore più importante nel primo modello Netflix di Funk è stato definito dagli utenti che amavano film come "Pearl Harbour" e "The Wedding Planner" mentre odiavano anche film come "Lost in Translation" o "Eternal Sunshine of the Spotless Mind". Il suo modello ha mostrato come l'apprendimento automatico può trovare correlazioni tra gruppi di persone, e gruppi di film, che gli uomini stessi non avrebbero mai individuato.

    L'approccio generale di Funk ha utilizzato i 50 o 100 fattori più importanti sia per gli utenti che per i film per fare un'ipotesi decente su come ogni utente avrebbe valutato ogni film. Questo metodo, spesso chiamata riduzione della dimensionalità o fattorizzazione matriciale, non era nuovo. I ricercatori di scienze politiche avevano dimostrato che tecniche simili utilizzando i dati del voto per appello nominale potevano prevedere i voti dei membri del Congresso con una precisione del 90%. In psicologia il modello dei "Big Five" era stato utilizzato anche per prevedere il comportamento raggruppando insieme domande sulla personalità a cui tendeva a rispondere in modo simile.

    Ancora, Il modello di Funk è stato un grande progresso:ha permesso alla tecnica di funzionare bene con enormi set di dati, anche quelli con molti dati mancanti, come il set di dati di Netflix, dove un utente tipico ha valutato solo poche dozzine di film tra le migliaia nella libreria dell'azienda. Più di un decennio dopo la fine del concorso Netflix Prize, metodi basati su SVD, o relativi modelli per dati impliciti, sono ancora lo strumento preferito da molti siti Web per prevedere ciò che gli utenti leggeranno, guarda, o acquistare.

    Questi modelli possono prevedere altre cose, pure.

    Facebook sa se sei repubblicano

    Nel 2013, Il ricercatore dell'Università di Cambridge Michal Kosinski, David Stillwell e Thore Graepel hanno pubblicato un articolo sul potere predittivo dei dati di Facebook, utilizzando le informazioni raccolte attraverso un test della personalità online. La loro analisi iniziale era quasi identica a quella utilizzata per il Premio Netflix, utilizzando SVD per classificare sia gli utenti che le cose che "sono piaciute" nei primi 100 fattori.

    Il documento ha mostrato che un modello fattoriale realizzato con i soli "Mi piace" di Facebook degli utenti era accurato al 95% nel distinguere tra intervistati bianchi e neri, 93% preciso nel distinguere gli uomini dalle donne, e l'88% preciso nel distinguere le persone che si identificavano come uomini gay da uomini che si identificavano come etero. Potrebbe anche distinguere correttamente i repubblicani dai democratici l'85 per cento delle volte. È stato anche utile, anche se non così preciso, per prevedere i punteggi degli utenti nel test della personalità "Big Five".

    Aleksandr Kogan risponde alle domande della CNN.

    Ci fu indignazione pubblica in risposta; in poche settimane Facebook aveva reso privati ​​i Mi piace degli utenti per impostazione predefinita.

    Kogan e Cancelliere, anche i ricercatori dell'Università di Cambridge dell'epoca, stavano iniziando a utilizzare i dati di Facebook per il targeting elettorale come parte di una collaborazione con la società madre di Cambridge Analytica, SCL. Kogan ha invitato Kosinski e Stillwell a unirsi al suo progetto, ma non ha funzionato. Secondo quanto riferito, Kosinski sospettava che Kogan e il Cancelliere avrebbero potuto decodificare il modello dei "mi piace" di Facebook per Cambridge Analytica. Kogan ha negato questo, affermando che il suo progetto "ha costruito tutti i nostri modelli utilizzando i nostri dati, raccolti utilizzando il nostro software."

    Cosa hanno fatto realmente Kogan e il Cancelliere?

    Mentre seguivo gli sviluppi della storia, è diventato chiaro che Kogan e Chancellor avevano effettivamente raccolto molti dei propri dati attraverso l'app thisisyourdigitallife. Certamente avrebbero potuto costruire un modello SVD predittivo come quello presentato nella ricerca pubblicata di Kosinski e Stillwell.

    Così ho mandato un'e-mail a Kogan per chiedere se era quello che aveva fatto. Un po' con mia sorpresa, ha scritto di nuovo.

    "Non abbiamo usato esattamente SVD, " scrisse, notando che SVD può avere difficoltà quando alcuni utenti hanno molti più "Mi piace" di altri. Anziché, Kogan ha spiegato, "La tecnica era qualcosa che in realtà abbiamo sviluppato noi stessi... Non è qualcosa che è di dominio pubblico". Senza entrare nei dettagli, Kogan ha descritto il loro metodo come "un approccio multi-fase di co-occorrenza".

    Però, il suo messaggio ha continuato a confermare che il suo approccio era effettivamente simile a SVD o ad altri metodi di fattorizzazione a matrice, come nel concorso a premi Netflix, e il modello Facebook di Kosinki-Stillwell-Graepel. La riduzione della dimensionalità dei dati di Facebook era il fulcro del suo modello.

    Quanto era accurato?

    Kogan ha suggerito che il modello esatto utilizzato non ha molta importanza, però – ciò che conta è l'accuratezza delle sue previsioni. Secondo Kogan, la "correlazione tra i punteggi previsti e quelli effettivi... era di circa il [30 percento] per tutte le dimensioni della personalità". A confronto, i precedenti punteggi dei Big Five di una persona sono circa il 70-80% accurati nel prevedere i loro punteggi quando ripetono il test.

    Le affermazioni sull'accuratezza di Kogan non possono essere verificate in modo indipendente, Certo. E chiunque sia coinvolto in uno scandalo di così alto profilo potrebbe avere un incentivo a sottovalutare il proprio contributo. Nella sua apparizione alla CNN, Kogan spiegò a un sempre più incredulo Anderson Cooper che, infatti, i modelli in realtà non avevano funzionato molto bene.

    Infatti, la precisione dichiarata da Kogan sembra un po' bassa, ma plausibile. Kosinski, Stillwell e Graepel hanno riportato risultati comparabili o leggermente migliori, così come molti altri studi accademici che utilizzano impronte digitali per prevedere la personalità (sebbene alcuni di questi studi avessero più dati dei soli "Mi piace" di Facebook). È sorprendente che Kogan e Chancellor si prendano la briga di progettare il proprio modello proprietario se le soluzioni pronte all'uso sembrano essere altrettanto accurate.

    È importante sottolineare che anche se, l'accuratezza del modello sui punteggi della personalità consente il confronto dei risultati di Kogan con altre ricerche. I modelli pubblicati con un'accuratezza equivalente nella previsione della personalità sono tutti molto più accurati nell'indovinare i dati demografici e le variabili politiche.

    Ad esempio, il modello simile Kosinski-Stillwell-Graepel SVD era accurato all'85 percento nell'indovinare l'affiliazione del partito, anche senza utilizzare alcuna informazione del profilo diversa dai Mi piace. Il modello di Kogan aveva una precisione simile o migliore. L'aggiunta anche di una piccola quantità di informazioni sugli amici o sui dati demografici degli utenti aumenterebbe probabilmente questa precisione oltre il 90%. Indovina sul genere, corsa, l'orientamento sessuale e altre caratteristiche sarebbero probabilmente anche più accurati del 90%.

    criticamente, queste ipotesi sarebbero particolarmente utili per gli utenti di Facebook più attivi, le persone a cui il modello è stato principalmente utilizzato come target. Gli utenti con meno attività da analizzare probabilmente non sono comunque molto su Facebook.

    Quando la psicografia è principalmente demografia

    Sapere come è costruito il modello aiuta a spiegare le affermazioni apparentemente contraddittorie di Cambridge Analytica sul ruolo – o la mancanza di ciò – che il profilo della personalità e la psicografia hanno giocato nella sua modellazione. Sono tutti tecnicamente coerenti con ciò che descrive Kogan.

    Un modello come quello di Kogan fornirebbe stime per ogni variabile disponibile su qualsiasi gruppo di utenti. That means it would automatically estimate the Big Five personality scores for every voter. But these personality scores are the output of the model, not the input. All the model knows is that certain Facebook likes, and certain users, tend to be grouped together.

    With this model, Cambridge Analytica could say that it was identifying people with low openness to experience and high neuroticism. But the same model, with the exact same predictions for every user, could just as accurately claim to be identifying less educated older Republican men.

    Kogan's information also helps clarify the confusion about whether Cambridge Analytica actually deleted its trove of Facebook data, when models built from the data seem to still be circulating, and even being developed further.

    The whole point of a dimension reduction model is to mathematically represent the data in simpler form. It's as if Cambridge Analytica took a very high-resolution photograph, resized it to be smaller, and then deleted the original. The photo still exists – and as long as Cambridge Analytica's models exist, the data effectively does too.

    Questo articolo è stato originariamente pubblicato su The Conversation. Leggi l'articolo originale.




    © Scienza https://it.scienceaq.com