Casualità, in ambito scientifico, è un termine con una connotazione leggermente negativa. Fare le cose “a caso”, nel gergo comune, vuol dire improvvisare, arrangiarsi, non seguire un piano o un senso logico. Pensate se un analista o uno scienziato vi dicesse che ha risolto un problema usando un approccio casuale: be’, non vi sentireste del tutto in una botte di ferro.
Nel mondo della statistica, però, le cose stanno diversamente. Mettiamo subito in chiaro le cose: la statistica può in un certo senso essere definita la scienza del caso, soprattutto la sua branca più famosa, quella del calcolo delle probabilità. In questo articolo però non parleremo di questo spinoso argomento (alzi la mano chi non ha avuto un sussulto nel leggere “calcolo delle probabilità”), bensì di un altro, leggermente più intrigante, ovvero il machine learning/apprendimento automatico, ovvero quella branca della statistica che si occupa di analizzare vasti insiemi di dati per fornire una previsione di un dato incerto, detto variabile dipendente, in base a una serie di predittori, dette anche variabili predittive.
Che albero e’ quello?
Uno dei modelli di machine learning più utili, e al tempo stesso elegantemente semplici, risponde al nome un po’ bizzarro di Albero Decisionale. Per fare un esempio semplice, immaginiamo di voler prevedere il salario di un campione di individui (variabile dipendente) in base ad alcuni dati raccolti su di essi, come esperienza lavorativa, livello di istruzione, residenza (predittori).
Un Albero Decisionale funziona così: partendo da un dataset iniziale, l’albero individua il predittore che più di tutti influenza la variabile dipendente, e divide quel predittore in due sottogruppi in base a una semplice domanda Sì/No. Per esempio:
“La persona ha più di 10 anni di esperienza?”
Se Sì, allora si va nella parte destra dell’albero; se No, in quella sinistra.
Adesso, nella parte destra, ovvero tra le persone con più di 10 anni di esperienza, si passa al secondo ramo dell’albero. Con lo stesso criterio, l’albero troverà la prossima variabile più impattante e la domanda sarà:
“La persona ha una laurea?”
Se Sì, si va nella parte destra di questo sottoramo; se No, nella parte sinistra.
E così via, fino all’ultimo sottoramo, le cui diramazioni finali sono chiamate foglie, e contengono il valore predetto della variabile dipendente, ovvero il salario previsto.
Nella sua definizione più semplice, quindi, un Albero Decisionale è una serie di domande innestate l’una dentro l’altra, con due sole opzioni di risposta: Sì o No. In base alle risposte a queste domande, il modello dell’Albero Decisionale fornisce una previsione della variabile dipendente.

Una “foresta” di dati
Ovviamente un singolo Albero Decisionale darà una singola risposta, ovvero in base alle condizioni iniziali, il modello fornirà una e una sola previsione. Ma un concetto affascinante della statistica è che introducendo della casualità controllata, si riesce a fornire una risposta più robusta, perché si introducono delle differenze nelle condizioni iniziali. Il modello viene così allenato a prevedere la risposta non più in base a una sola situazione, ma a una serie di situazioni tutte diverse tra di loro, le cui differenze sono appunto casuali.
Si entra così nel magico mondo delle cosiddette Foreste Casuali, ovvero insiemi di Alberi Decisionali che si differenziano tra di loro in base a condizioni non certe, ma frutto del caso. Per esempio:
- Invece di utilizzare l’intero campione iniziale, si può creare un secondo dataset in cui se ne prende solo una parte, selezionata con un campionamento casuale
- Oppure, invece di utilizzare l’intero insieme di predittori, se ne prendono solo alcuni, anche in questo caso con un campionamento casuale
Con lo stesso criterio si può creare un terzo dataset, un quarto, e così via, tutti diversi tra di loro perché basati fondamentalmente su varie estrazioni casuali dallo stesso campione iniziale.
Per ogni nuovo dataset ci sarà un nuovo albero, e la stima finale della Foresta Casuale sarà una media ponderata delle risposte scaturite dai vari alberi.
I vantaggi
Ma che vantaggio ha tutto ciò, vi starete chiedendo? Ebbene, nella stragrande maggioranza dei casi, la qualità delle previsioni delle Foreste Casuali è superiore a quella dei singoli alberi. Questo avviene perché introducendo della casualità controllata, e di fatto creando multipli dataset, il modello riesce a generalizzare meglio, evitando di basare la sua intera conoscenza su un singolo dataset ed incorrere in quello che in gergo viene chiamato
“overfit”.
L’approccio casuale ha tanti altri vantaggi nella statistica. Per esempio, assumendo delle condizioni iniziali e simulando migliaia o milioni di campioni casuali, si può stimare quale sia il grado di rischio di determinate scelte o azioni che dipendono da quelle condizioni: questo approccio trova applicazione nello studio del ritorno di investimenti in finanza, o delle interazioni tra particelle in fisica, ed è conosciuto come “simulazioni Monte Carlo”.
L’insegnamento che si trae da questi esempi è che nella statistica predittiva il concetto di Casualità può essere sfruttato a proprio vantaggio per creare un insieme potenzialmente infinito di sottocampioni o di simulazioni con l’obiettivo di irrobustire le stime generate dai modelli statistici.
Senza il concetto di Casualità avremmo modelli statistici più imprecisi e non saremmo in grado di prevedere eventi futuri con un margine di errore accettabile.
Quindi quell’analista che aveva risolto un problema usando un approccio casuale, forse alla fine non aveva tutti i torti…