Credito:CC0 Dominio pubblico
Un team internazionale di ricercatori ha testato l'idea che le valutazioni online gratuite siano meno affidabili di quelle che hanno un costo per loro, attingendo alla teoria ecologica nota come "teoria dei segnali costosi".
La teoria suggerisce che se lasciare una recensione comporta un prezzo, che si tratti di denaro, tempo o energia, si tradurrà in valutazioni più accurate. Nell'ecologia, La costosa teoria dei segnali sostiene che i display che "costano" di più, come elaborate code di pavone, o faticose manifestazioni di fame da parte degli uccellini, hanno maggiori probabilità di riflettere la realtà. Una coda colorata denota un pavone sano, e un pulcino con la pancia piena non sprecherà l'energia per gridare più cibo.
Ma il sociologo di Princeton Dalton Conley e i suoi colleghi sono i primi ad applicare questa teoria a Yelp o Uber e ai loro sistemi di valutazione. Testando una serie di strumenti di valutazione ponderata nel contesto di un videogioco, hanno scoperto che le valutazioni a basso sforzo erano meno accurate di quelle il cui utilizzo richiedeva qualche secondo in più. Hanno concluso che i siti di e-commerce dovrebbero riprogettare le loro interfacce per imporre costi di tempo ai valutatori di prodotti o servizi.
"In poche parole:rendere la valutazione di beni o servizi il più semplice possibile, come molti siti di e-commerce cercano di fare, è controproducente, " ha detto Conley, Professore di sociologia dell'Università Henry Putnam di Princeton e affiliato di facoltà presso l'Ufficio per la ricerca sulla popolazione e il Centro per la salute e il benessere, che è l'autore senior di un recente articolo negli Atti delle Accademie Nazionali delle Scienze. "Idem per costringere tutti a dare un voto. I voti sono più accurati invece quando dare qualcosa costa qualcosa."
Ha continuato:"L'intuizione di Uber e di altri siti di e-commerce è probabilmente sbagliata. C'è un motivo per cui le piume del pavone sono così costose da produrre:il loro costo assicura un segnale onesto di idoneità riproduttiva".
O, come ha affermato il coautore Lucas Parra:"Le valutazioni online sono inutili, non lo sono? A meno che non debbano sostenere dei costi per i valutatori!" Parra è Harold Shames Professor of Biomedical Engineering presso il City College di New York.
Conley, Parra e il loro team di coautori hanno sostenuto che anche se c'è poca motivazione a barare con le valutazioni online, non c'è alcun incentivo evidente a lasciare una recensione a una stella di un posto che ci è piaciuto, o una recensione a cinque stelle di una discarica:c'è, nella migliore delle ipotesi, scarso beneficio diretto per i valutatori che forniscono valutazioni accurate, suggerendo che è probabile che le persone forniscano informazioni di bassa qualità.
Decisero di testare la teoria imponendo un "costo" alla fornitura di informazioni - e costi più elevati su valutazioni estreme - per vedere se potevano eliminare o ridurre il numero di disonesti, valutazioni a una stella e a cinque stelle con un'inclinazione media.
Così hanno creato alcuni videogiochi, e ha reclutato giocatori da Mechanical Turk di Amazon.
In un tipico gioco, i giocatori manovravano un'auto per raccogliere monete, sapendo che avrebbero ricevuto un centesimo del pagamento reale per ogni moneta digitale raccolta. Le strade erano separate da laghi che potevano essere attraversati solo con i traghetti. Le prime due corse in traghetto sono state utilizzate come set di allenamento, con ritardi di 20 secondi e poi di 4 secondi, stabilire una base di riferimento comune per le valutazioni delle prestazioni dei traghetti. Dopo di che, il gioco variava casualmente i ritardi e la velocità dei servizi di traghetto. I traghetti più veloci sono arrivati immediatamente e hanno attraversato il lago in 2 secondi, mentre i traghetti più lenti erano sia in ritardo in arrivo che lenti, richiede un totale di 40 secondi per attraversare un lago.
Alla fine di ogni viaggio in traghetto, i giocatori hanno dovuto valutare il servizio di traghetti su una scala da 0 a 100 prima di poter proseguire. Quelle valutazioni sono diventate i dati per il team di ricerca. Lo strumento di valutazione in-game utilizzava una barra di scorrimento ponderata con "attrito" digitale per ogni punto che un giocatore si allontanava da una valutazione media precedentemente determinata. In altre parole, più estremo è il tuo punteggio, più secondi hai speso spingendo la barra verso l'alto o verso il basso.
Il gioco totale era limitato a 15 minuti, quindi i giocatori sono stati motivati a inviare le loro classifiche il più rapidamente possibile in modo da poter tornare a riscuotere i loro premi monetari. I giocatori hanno viaggiato in media su 17 traghetti per partita, consentendo ai ricercatori di misurare le correlazioni tra le loro valutazioni soggettive e il servizio oggettivo dei traghetti (misurato come tempo totale per prendere il traghetto), sia all'interno che tra i soggetti.
Hanno scoperto che la loro barra di scorrimento ponderata ha portato a stime della qualità della folla più affidabili rispetto a una barra dei clic non ponderata, dove tutti i punteggi da 0 a 100 potevano essere dati da un clic istantaneo sullo schermo, dove tutte le valutazioni erano ugualmente "economiche".
I loro risultati hanno implicazioni per le onnipresenti richieste di rating all'interno dell'e-commerce, e il loro approccio può essere generalizzato e testato in una varietà di sistemi di comunicazione online su larga scala, hanno detto i ricercatori.
Il team non aveva deciso di testare le valutazioni, disse Conley. Inizialmente erano interessati all'apprendimento online, "ma nel corso degli esperimenti ci siamo resi conto che i dati sulle valutazioni che stavamo ottenendo... non erano molto buoni, quindi abbiamo deciso di migliorare quel problema."
Sono rimasti sorpresi nello scoprire che la riduzione del costo degli ascolti si è effettivamente rivelata controproducente. La teoria economica classica suggerisce che ridurre al minimo i costi produrrebbe i migliori risultati, ma i loro dati mostrano il contrario.
In breve, Uber deve rallentare il suo strumento di valutazione, disse Conley. "Conversione del dispositivo di valutazione da un semplice clic a un dispositivo di scorrimento, dove dare punteggi molto alti o bassi diventa difficile a causa del rallentamento del cursore man mano che l'utente si allontana in entrambe le direzioni, produce migliori distribuzioni di punteggio. Solo i valutatori altamente motivati forniranno punteggi estremi".