È difficile sottovalutare l'importanza dei dati dei sondaggi:ci dicono chi siamo e, nelle mani dei responsabili politici, cosa fare.
Era stato a lungo evidente a Brady West, un esperto di metodologia di indagine presso l'Università del Michigan, Anna Arbor, che i vantaggi dei dati del sondaggio coesistevano con la mancanza di formazione su come interpretarli correttamente, soprattutto quando si trattava di analisi secondarie:ricercatori che rianalizzavano i dati di un sondaggio che erano stati raccolti da uno studio precedente.
"Nel mio lavoro di consulenza per enti e imprese, la gente entrava e diceva:'Bene, ecco la mia stima di quanto spesso si verifica qualcosa in una popolazione, ' come il tasso di una malattia o le preferenze per un partito politico. E vorrebbero sapere come interpretarlo. io risponderei, 'Hai tenuto conto della ponderazione nei dati del sondaggio che stai utilizzando o, hai tenuto conto del disegno di esempio?' e direi, probabilmente il 90 percento delle volte, mi guardavano e non avevano idea di cosa stessi parlando. Non avevano mai appreso i principi fondamentali del lavoro con i dati dei sondaggi nelle loro classi Intro to Stats standard."
Come metodologo di indagine, West si chiedeva se la sua esperienza fosse indicativa di un problema sistemico. Non c'era molto nella letteratura accademica per rispondere alla domanda, così lui e i suoi colleghi, Joseph Sakshaug e Guy Aurelien, 250 carte campionate, report e presentazioni, tutti disponibili online, tutti conducendo analisi secondarie dei dati del sondaggio, per vedere se questi errori analitici erano, infatti, Comune.
"È stato abbastanza scioccante, " dice West. "Solo circa la metà di queste analisi ha affermato di spiegare la ponderazione, l'impatto dei disegni campione sulle stime della varianza è stato ampiamente frainteso e non c'è stato alcun segno di miglioramento in questi problemi nel tempo." Ma forse la cosa peggiore di tutte, questi problemi erano altrettanto prevalenti nella letteratura sottoposta a revisione paritaria nel loro campione quanto lo erano nei rapporti tecnici e nelle presentazioni a conferenze. "Questo è ciò che è stato davvero più scioccante per me, " dice West. "Il processo di revisione paritaria non stava rilevando questi errori".
Un esempio allarmante di ciò che può accadere quando si calcola una stima ma si ignora la ponderazione del sondaggio può essere trovato nel National Survey of College Graduates (NSCG) del 2010. "Si tratta di un'ampia indagine nazionale sui laureati, e nella loro documentazione dicono letteralmente che stanno sovracampionando individui con titoli di studio in scienze e ingegneria, " dice West. "Se si tiene conto della ponderazione, che corregge questo sovracampionamento, circa il 30 percento delle persone si laurea in scienze e ingegneria; se dimentichi la ponderazione, estrapoli il sovracampione all'intera popolazione, e improvvisamente il 55% delle persone ha una laurea in scienze e ingegneria".
Ironia della sorte, un migliore campionamento delle popolazioni poco studiate potrebbe esacerbare il problema. "C'è molto interesse per le popolazioni sottorappresentate, come gli ispanici, " dice West. "Allora, molti sondaggi nazionali sovracampionano questi gruppi e altri per creare un campione abbastanza grande da consentire ai ricercatori di studiare adeguatamente. Ma quando Average Joe Researcher acquisisce tutti i dati, non solo i dati della sottopopolazione a cui sono interessati, ma tutti, bianchi, Afroamericani, e ispanici, e poi cercano di analizzare tutti quei dati collettivamente, questo è il momento in cui il sovracampionamento può avere un effetto orribile sull'immagine complessiva se quella caratteristica del disegno di esempio non viene considerata correttamente nella stima."
Esistono molti strumenti software di facile utilizzo che possono facilmente spiegare le complessità di campionamento e ponderazione associate ai dati di indagine, ma il fatto che non vengano utilizzati parla del problema di fondo.
"Questo problema nasce dal fatto che alle persone che pubblicano questi articoli non viene detto nulla di tutto questo durante la loro formazione, "dice West. "Sappiamo dell'importanza della ponderazione dei sondaggi da quasi un secolo, ma in qualche modo il modo in cui trattare i dati dei sondaggi ponderati non è penetrato nelle classi di statistica che i ricercatori seguono a livello universitario o laureato. Spendiamo una fortuna per fare sondaggi nazionali e chissà quanto ci costa interpretare erroneamente quei dati".
Per risolvere quel problema, West sta aiutando a progettare un MOOC (corso online aperto di massa) presso l'Università del Michigan introducendo le statistiche con il software Python. La ponderazione e le corrette analisi del sondaggio verranno insegnate nel primissimo corso di quella specializzazione. "Ci stiamo davvero concentrando sull'assicurarci che prima di passare a qualsiasi analisi dei dati del sondaggio, hai una comprensione davvero precisa di come sono stati raccolti i dati e da dove provengono."