Immaginate di iniziare un nuovo lavoro e di dover guidare il primo giorno fino al nuovo ufficio. Non ci siete mai stati, ma sapete che è a fianco a una palestra che conoscete abbastanza bene, avendola frequentata in passato. Sapete che il tempo per arrivare alla palestra, a quell’ora del giorno, è di circa 30 minuti, anche se l’ultima volta è stata più di un anno fa (ahimè, avete poi smesso di andare in palestra, ma questa è un’altra storia). Oggi è il primo giorno di lavoro e state per decidere a che ora uscire di casa. Immaginiamo per un attimo di non avere accesso ai dati del navigatore. Cosa fate:
- Utilizzate le informazioni che avete a disposizione (per quanto obsolete) e pianificate per una durata del viaggio di 30 minuti circa?
- Oppure ignorate completamente quello che già sapete e provate a guidare il primo giorno scegliendo un orario di partenza casuale?
Ovviamente viene naturale scegliere la prima opzione, cioè sfruttare le informazioni già a disposizione, piuttosto che ignorarle completamente.
Bene, se siete d’accordo su questo, siete già a buon punto per utilizzare un approccio Bayesiano alla statistica.
Chi era Bayes?
Il nome di Bayes ha probabilmente fatto paura a tutti gli studenti di statistica alle prime armi, essendo riferito ad un autorevole matematico settecentesco noto per un arduo teorema sulla probabilità che ha agitato innumerevoli notti prima degli esami. È lui l’austero volto raffigurato nell’immagine di questo articolo. In realtà, l’approccio Bayesiano applicata ai test di ipotesi è più semplice di quanto si pensi. Consiste semplicemente nel considerare una assunzione “a priori”, ovvero prima di analizzare i dati o di incominciare un esperimento, e di modificare questa assunzione man mano che si raccolgono nuovi dati.
Come funziona? Un esempio pratico
Per esempio, prendete un test di conversione di una campagna di Marketing, che serve per misurare quale percentuale di persone esposte ad una certa pubblicità, comprano il prodotto pubblicizzato. Se un test símile è stato già condotto in passato, ed il risultato è stato per esempio del 5% (cioè 5 persone su 100 esposte hanno acquistato il prodotto), allora 5% sarà il nostro punto di partenza, cioè la nostra assunzione a priori per il nuovo test. Una volta che i dati fattuali iniziano ad essere raccolti, inizieremo a farci una nuova idea di questa statistica – chiamata evidenza o verosimiglianza – e il risultato finale del test sarà una combinazione di entrambe le componenti: dell’assunzione a priori e della verosimiglianza. Naturalmente il peso delle due sarà diverso a seconda di quanti dati fattuali saranno raccolti. Più sarà grande la mole di dati raccolti, più la verosimiglianza avrà un peso maggiore rispetto all’assunzione a priori. Se invece potremo raccogliere solo pochi dati, allora la nostra assunzione a priori (ovvero il risultato del test precedente) avrà un peso maggiore nel risultato finale.
Tornando all’esempio iniziale, potrebbe essere che durante la prima settimana di viaggi casa-ufficio, i dati raccolti sul tempo impiegato siano ancora pochi e molto variabili – in termini statistici, una varianza elevata – per cui l’assunzione a priori avrà ancora un certo peso sulla stima finale. Dopo varie settimane però, i dati iniziano ad assestarsi su una nuova media (per esempio, 20 minuti), con uno scarto abbastanza ridotto, e allora verrà naturale rivedere la stima finale sulla base dell’evidenza raccolta.
La rivalità: Bayesiani contro Frequentisti
Sembra molto logico, ma nell’ambito dei test di Marketing, l’approccio Bayesiano è ancora poco utilizzato rispetto all’approccio “classico”, detto Frequentista, che si basa solo ed esclusivamente sui dati raccolti. L’approccio Frequentista non ammette conoscenze pregresse e basa tutte le conclusioni sulla verosimiglianza. Questo metodo ovviamente ha senso su grandi campioni, ma come si può ben immaginare, il problema si manifesta quando – per varie ragioni di tempo, denaro, etc. – non è possibile raccogliere un campione di dati significativo, per cui i risultati dell’approccio Frequentista saranno inconcludenti.
Ma c’è anche un altro aspetto dell’approccio Bayesiano che vale la pena evidenziare. Ovvero la possibilità di trarre conclusioni probabilistiche dall’esperimento, cosa che non è invece possibile nell’approccio Frequentista. Per esempio, riferendosi di nuovo all’ambito dei test di Marketing, è possibile testare la conversione di due diverse tattiche pubblicitare e trarre conclusioni del tipo “la tattica A ha una probabilità dell’80% di essere più efficiente della tattica B”. Questo tipo di conclusioni sono possibili perché l’approccio Bayesiano, invece di stimare un singolo dato per ciascuna tattica (ovvero la conversione media), stima una distribuzione di conversioni per ciascuna tattica, e quindi è possibile confrontare le due distribuzioni e trarre conclusioni probabilistiche, che sono estremamente utili per i responsabili delle decisioni.
Un ultimo vantaggio, e forse il più importante dal punto di vista delle aziende che commissionano i test, è il fatto che l’approccio Bayesiano converge ad un risultato “quasi-certo” molto più velocemente di quello Frequentista. Ovvero, per arrivare ad un grado di confidenza del 95% di avere una variante più efficiente dell’altra, serve un campione di dati decisamente più piccolo. Guardate questo grafico, in cui la dimensione della bolla indica la minima numerosità campionaria, per diverse combinazioni delle assunzioni di base del test.

Si nota che la dimensione minima Bayesiana, rappresentata dalla dimensione della bolla arancione, è quasi sempre minore della dimensione minima Frequentista, rappresentata dalla bolla azzurra, con una riduzione media del 50%, che varia ovviamente a seconda delle assunzioni pre-test.
Quindi, perché scegliere l’approccio Bayesiano?
Per riassumere, l’approccio Bayesiano comporta tre principali vantaggi:
- Una numerosità del campione ridotta
- La possibilità di introdurre nel test una conoscenza pregressa
- La possibilità di trarre conclusioni probabilistiche invece che assolute
In conclusione, non fatevi spaventare dal nome austero del personaggio, o dall’apparente difficoltà. L’approccio Bayesiano è intuitivo, logico e molto pratico in situazioni con pochi dati e bisogna prendere decisioni in situazioni di incertezza. Allora, perché non provare?