Credito:CC0 Dominio Pubblico
Conoscere le vere vendite di un'azienda può aiutare a determinarne il valore. Investitori, ad esempio, spesso impiegano analisti finanziari per prevedere i guadagni imminenti di un'azienda utilizzando vari dati pubblici, strumenti di calcolo, e la propria intuizione. Ora i ricercatori del MIT hanno sviluppato un modello automatizzato che supera in modo significativo gli umani nella previsione delle vendite aziendali utilizzando un numero molto limitato, dati "rumorosi".
In finanza, c'è un crescente interesse nell'utilizzo di dati sui consumatori imprecisi ma generati di frequente, chiamati "dati alternativi", per aiutare a prevedere i guadagni di un'azienda per scopi di trading e investimento. I dati alternativi possono comprendere acquisti con carta di credito, dati sulla posizione da smartphone, o anche immagini satellitari che mostrano quante auto sono parcheggiate nel parcheggio di un rivenditore. Combinando dati alternativi con dati finanziari veritieri più tradizionali ma poco frequenti, come guadagni trimestrali, comunicati stampa, e i prezzi delle azioni:possono dipingere un quadro più chiaro della salute finanziaria di un'azienda anche su base giornaliera o settimanale.
Ma, finora, è stato molto difficile essere precisi, stime frequenti utilizzando dati alternativi. In un articolo pubblicato questa settimana negli Atti della Conferenza ACM Sigmetrics, i ricercatori descrivono un modello per la previsione dei dati finanziari che utilizza solo transazioni settimanali anonime con carta di credito e rapporti sui guadagni trimestrali.
Incaricato di prevedere gli utili trimestrali di oltre 30 società, il modello ha superato le stime combinate degli analisti esperti di Wall Street sul 57 percento delle previsioni. In particolare, gli analisti avevano accesso a qualsiasi dato pubblico o privato disponibile e ad altri modelli di apprendimento automatico, mentre il modello dei ricercatori ha utilizzato un set di dati molto piccolo dei due tipi di dati.
"I dati alternativi sono questi strani, segnali proxy per aiutare a tenere traccia dei dati finanziari sottostanti di un'azienda, " dice il primo autore Michael Fleder, un postdoc presso il Laboratorio per i Sistemi Informativi e Decisionali (LIDS). "Noi abbiamo chiesto, "Puoi combinare questi segnali rumorosi con numeri trimestrali per stimare i veri dati finanziari di un'azienda alle alte frequenze?" Si scopre che la risposta è sì".
Il modello potrebbe dare un vantaggio agli investitori, commercianti, o aziende che desiderano confrontare frequentemente le proprie vendite con quelle della concorrenza. Oltre la finanza, il modello potrebbe aiutare gli scienziati sociali e politici, Per esempio, studiare aggregato, dati anonimi sul comportamento pubblico. "Sarà utile per chiunque voglia capire cosa stanno facendo le persone, "dice Fleder.
Insieme a Fleder sulla carta c'è il professor EECS Devavrat Shah, chi è il direttore del Statistics and Data Science Center del MIT, membro del Laboratorio per i Sistemi Informativi e Decisionali, un investigatore principale per il MIT Institute for Foundations of Data Science, e professore a contratto presso il Tata Institute of Fundamental Research.
Affrontare il problema dei "piccoli dati"
Per il meglio o il peggio, molti dati sui consumatori sono in vendita. Rivenditori, ad esempio, può acquistare transazioni con carta di credito o dati sulla posizione per vedere quante persone fanno acquisti presso un concorrente. Gli inserzionisti possono utilizzare i dati per vedere come i loro annunci influiscono sulle vendite. Ma ottenere quelle risposte si basa ancora principalmente sugli umani. Nessun modello di machine learning è stato in grado di macinare adeguatamente i numeri.
Controintuitivamente, il problema è in realtà la mancanza di dati. Ogni contributo finanziario, come un rapporto trimestrale o un totale settimanale della carta di credito, è solo un numero. I rapporti trimestrali su due anni totalizzano solo otto punti dati. Dati della carta di credito per, dire, ogni settimana nello stesso periodo è solo circa altri 100 punti dati "rumorosi", nel senso che contengono informazioni potenzialmente non interpretabili.
"Abbiamo un problema di "piccoli dati", " Dice Fleder. "Ottieni solo una piccola fetta di ciò che le persone stanno spendendo e devi estrapolare e dedurre cosa sta realmente accadendo da quella frazione di dati".
Per il loro lavoro, i ricercatori hanno ottenuto transazioni con carta di credito al consumo, a intervalli tipicamente settimanali e bisettimanali, e rapporti trimestrali per 34 rivenditori dal 2015 al 2018 da un hedge fund. In tutte le società, hanno raccolto in totale 306 quarti di dati.
Il calcolo delle vendite giornaliere è abbastanza semplice nel concetto. Il modello presuppone che le vendite giornaliere di un'azienda rimangano simili, solo leggermente in diminuzione o in aumento da un giorno all'altro. Matematicamente, ciò significa che i valori di vendita per giorni consecutivi vengono moltiplicati per un valore costante più un valore statistico di rumore, che cattura parte della casualità intrinseca nelle vendite di un'azienda. Le vendite di domani, ad esempio, uguale alle vendite di oggi moltiplicate per, dire, 0,998 o 1,01, più il numero stimato per il rumore.
Se vengono forniti parametri accurati del modello per la costante giornaliera e il livello di rumore, un algoritmo di inferenza standard può calcolare quell'equazione per produrre una previsione accurata delle vendite giornaliere. Ma il trucco sta nel calcolare quei parametri.
Districare i numeri
È qui che tornano utili i rapporti trimestrali e le tecniche di probabilità. In un mondo semplice, una relazione trimestrale potrebbe essere suddivisa per, dire, 90 giorni per calcolare le vendite giornaliere (il che implica che le vendite sono approssimativamente costanti giorno per giorno). In realtà, le vendite variano di giorno in giorno. Anche, l'inclusione di dati alternativi per aiutare a capire come variano le vendite nell'arco di un quarto complica le cose:oltre ad essere rumoroso, i dati della carta di credito acquistata consistono sempre in una frazione indeterminata delle vendite totali. Tutto ciò rende molto difficile sapere in che modo esattamente i totali della carta di credito influiscono sulla stima complessiva delle vendite.
"Ciò richiede un po' di districare i numeri, " dice Fleder. "Se osserviamo l'1 per cento delle vendite settimanali di un'azienda attraverso le transazioni con carta di credito, come facciamo a sapere che è l'1 per cento? E, se i dati della carta di credito sono rumorosi, come fai a sapere quanto è rumoroso? Non abbiamo accesso alla verità di base per i totali di vendita giornalieri o settimanali. Ma gli aggregati trimestrali ci aiutano a ragionare su quei totali".
Fare così, i ricercatori utilizzano una variazione dell'algoritmo di inferenza standard, chiamato filtraggio di Kalman o propagazione delle credenze, che è stato utilizzato in varie tecnologie dalle navette spaziali al GPS per smartphone. Il filtraggio di Kalman utilizza le misurazioni dei dati osservate nel tempo, contenente imprecisioni di rumore, per generare una distribuzione di probabilità per variabili sconosciute in un periodo di tempo designato. Nel lavoro dei ricercatori, ciò significa stimare le possibili vendite di un singolo giorno.
Per addestrare il modello, la tecnica prima suddivide le vendite trimestrali in un determinato numero di giorni misurati, diciamo 90, consentendo alle vendite di variare di giorno in giorno. Quindi, corrisponde a quanto osservato, dati rumorosi della carta di credito a vendite giornaliere sconosciute. Utilizzando i numeri trimestrali e qualche estrapolazione, stima la frazione delle vendite totali che i dati della carta di credito rappresentano probabilmente. Quindi, calcola la frazione giornaliera delle vendite osservate, livello di rumore, e una stima dell'errore per quanto bene ha fatto le sue previsioni.
L'algoritmo di inferenza inserisce tutti questi valori nella formula per prevedere i totali giornalieri delle vendite. Quindi, può sommare quei totali per ottenere settimanalmente, mensile, o numeri trimestrali. In tutte le 34 società, il modello ha battuto un benchmark di consenso, che combina le stime degli analisti di Wall Street, sul 57,2 percento di 306 previsioni trimestrali.
Prossimo, i ricercatori stanno progettando il modello per analizzare una combinazione di transazioni con carta di credito e altri dati alternativi, come le informazioni sulla posizione. "Questo non è tutto ciò che possiamo fare. Questo è solo un punto di partenza naturale, "dice Fleder.