Credito:CC0 di pubblico dominio
Negli ultimi anni, il crowdsourcing, che prevede il reclutamento di membri del pubblico per aiutare a raccogliere dati, è stato estremamente utile per fornire ai ricercatori set di dati unici e ricchi, coinvolgendo anche il pubblico nel processo di scoperta scientifica. In un nuovo studio, un team internazionale di ricercatori ha esplorato come i progetti di crowdsourcing possono fare l'uso più efficace dei contributi dei volontari.
Le attività di raccolta dati attraverso il crowdsourcing spaziano da attività sul campo come il birdwatching ad attività online come la classificazione delle immagini per progetti come il Galaxy Zoo di grande successo, in cui i partecipanti classificano le forme delle galassie; e Geo-Wiki, dove le immagini satellitari vengono interpretate per la copertura del suolo, l'uso del suolo e gli indicatori socioeconomici. Ottenere input da così tanti partecipanti che analizzano una serie di immagini, tuttavia, solleva domande su quanto siano effettivamente accurate le risposte inviate. Sebbene esistano metodi per garantire l'accuratezza dei dati raccolti in questo modo, spesso hanno implicazioni per le attività di crowdsourcing come la progettazione del campionamento e i costi associati.
Nel loro studio appena pubblicato sulla rivista PLoS ONE , i ricercatori dell'IIASA e colleghi internazionali hanno esplorato la questione dell'accuratezza esaminando quante valutazioni di un'attività devono essere completate prima che i ricercatori possano essere ragionevolmente certi della risposta corretta.
"Molti tipi di ricerca con la partecipazione del pubblico implicano che i volontari classifichino immagini difficili da distinguere per i computer in modo automatizzato. Tuttavia, quando un'attività deve essere ripetuta da molte persone, ciò rende l'assegnazione di compiti alle persone che li svolgono più efficiente se si è certi della risposta corretta. Ciò significa che viene sprecato meno tempo da parte di volontari o valutatori pagati e scienziati o altri che richiedono i compiti possono ottenere di più dalle limitate risorse a loro disposizione", spiega Carl Salk, un ex allievo del IIASA Young Scientists Summer Program (YSSP) e collaboratore IIASA di lunga data attualmente associato all'Università svedese di scienze agrarie.
I ricercatori hanno sviluppato un sistema per stimare la probabilità che la risposta della maggioranza a un compito sia sbagliata, quindi hanno smesso di assegnare il compito a nuovi volontari quando quella probabilità è diventata sufficientemente bassa o la probabilità di ottenere una risposta chiara è diventata bassa. Hanno dimostrato questo processo utilizzando una serie di oltre 4,5 milioni di classificazioni uniche da parte di 2.783 volontari di oltre 190.000 immagini valutate per la presenza o l'assenza di terreni coltivati. Gli autori sottolineano che se il loro sistema fosse stato implementato nella campagna di raccolta dati originale, avrebbe eliminato la necessità del 59,4% di valutazioni dei volontari e che se lo sforzo fosse stato applicato a nuovi compiti, avrebbe consentito più del doppio del quantità di immagini da classificare con la stessa quantità di lavoro. Questo mostra quanto possa essere efficace questo metodo per fare un uso più efficiente dei limitati contributi dei volontari.
Secondo i ricercatori, questo metodo può essere applicato a quasi tutte le situazioni in cui è richiesta una classificazione sì o no (binaria) e la risposta potrebbe non essere molto ovvia. Gli esempi potrebbero includere la classificazione di altri tipi di uso del suolo, ad esempio:"C'è foresta in questa immagine?"; identificare le specie, chiedendo:"C'è un uccello in questa foto?"; o anche il tipo di attività "ReCaptcha" che svolgiamo per convincere i siti Web che siamo umani, come "C'è un semaforo in questa immagine?" Il lavoro può anche contribuire a rispondere meglio a domande importanti per i responsabili politici, come la quantità di terra utilizzata nel mondo per la coltivazione dei raccolti.
"Man mano che i data scientist si rivolgono sempre più alle tecniche di apprendimento automatico per la classificazione delle immagini, l'uso del crowdsourcing per creare librerie di immagini per la formazione continua ad acquisire importanza. Questo studio descrive come ottimizzare l'uso della folla per questo scopo, fornendo una guida chiara su quando rifocalizzare gli sforzi quando viene raggiunto il livello di confidenza necessario o una particolare immagine è troppo difficile da classificare", conclude il coautore dello studio, Ian McCallum, che guida il Novel Data Ecosystems for Sustainability Research Group presso IIASA.