Smettiamola di “Lanciare Monete” con la Data Science

Qualche tempo fa ho letto l’argomento di un thread su un canale che seguo dedicato alla Data Science; era qualcosa del tipo: “Lancio 8 monete diverse. Qual è la probabilità che esca croce per l’ottava moneta?”
Questo mi ha ricordato perché odiavo la statistica a scuola, anche se le mie lezioni di statistica erano “leggere”.
Fortunatamente per me, ho iniziato a studiare Data Science mentre lavoravo. In quel periodo ho avuto la possibilità di ricominciare a studiare la statistica, concentrandomi su un ambito specifico: questo mi ha aiutato ad innamorarmi della “statistica applicata”. O, come la chiamo io: “statistica per la Data Science”.
In questo articolo voglio raccontarti perché credo che sia necessario “ingegnerizzare la statistica” quando si parla di Data Science, lasciando i lancio delle monete per le chiacchiere con gli amici davanti ad una birra.
Anche se non c’è niente di male nell’affidarsi a “esempi più accademici”, la verità è che alcune persone semplicemente non li sopportano, preferendo “esempi più pratici”, poiché questo li aiuta a comprendere meglio gli argomenti. E io sono una di queste persone.
Lo so: potrebbe essere un articolo controverso, ma spero che vi piaccia comunque, e… per favore: parliamone nei commenti!
Perché odiavo la statistica a scuola
Ho studiato al Liceo Scientifico. Poi mi sono laureato in Ingegneria Meccanica e ho seguito alcune lezioni “leggere” di statistica in entrambi i percorsi di studio.
Ma sai cosa? Gli approcci didattici erano simili.
Qui in Italia siamo famosi (pizza a parte!) per avere studi molto teorici, infatti.
Diciamoci la verità, per noi i problemi tipici quando si risolve un esercizio statistico possono essere i seguenti:
- “Scozza un mazzo di carte ed estraine una. Qual è la probabilità che esca l’asso di cuori?“
- “Ci sono 100 palline in un sacchetto. 30 sono nere e 70 sono bianche. Ne tiri fuori una ed è nera. Qual è la probabilità che la prossima sia bianca?“
E l’elenco si potrebbe allungare… Il fatto è che ogni volta che sentivo questo tipo di domande la mia risposta (mentale) era:” CHI SE NE FREGA?”.
Sì, diciamolo ad alta voce: chi se ne frega? Chi vuole essere un mago in grado di predire il colore della prossima pallina che uscirà dal sacchetto? Beh, non io…
La verità è che il mio cervello si spegneva quando sentiva domande del genere e non voleva nemmeno sentire l’intera frase perché sapeva che non gli importava.
Semplicemente non gli piacevano questo tipo di sfide.
Ed ecco il punto: le sfide non erano impegnative. Beh, almeno non per me.
Ma c’è di più.
Sembra che l’unica parte interessante della statistica sia la probabilità. Quindi, se potessi parlare di nuovo con uno dei miei professori di statistica, direi: “Ehi! Sappiamo tutti che il gioco d’azzardo è iniquo, perché la probabilità di vincita è molto bassa. Ma la statistica non è solo probabilità e la probabilità può essere molto di più che lo studio del gioco d’azzardo!”.
Come mi sono innamorato della statistica
Da buon ingegnere, amo essere molto pratico e amo gli esempi concreti.
Quando ho iniziato a studiare Data Science lavoravo come Ingegnere di Processo in un’azienda del settore industriale, e quando ho scoperto che dovevo conoscere la statistica mi sono detto: “Bene, vediamo se è il momento giusto”.
Una delle prime domande che mi sono posto è stata: “Dato un particolare prodotto realizzato in una particolare catena di montaggio, la Data Science può aiutarmi a trovare un modo per capire chi è il miglior operatore che lavora in una particolare fase produttiva?”. Bene, questa è una domanda molto impegnativa. E infatti alla fine ho sviluppato la mia tesi di laurea proprio su questo, creando un algoritmo di rilevamento delle anomalie nei processi industriali.
La Data Science è una scienza pratica
Mi hanno sempre detto che: “La matematica è una scienza esatta”. Ciò significa che la matematica può essere espressa con rigore metodologico e i suoi fenomeni sono misurabili, riproducibili ed oggettivamente esprimibili in modo analitico, riuscendo così a prevedere i risultati dei fenomeni che rientrano nel suo ambito attraverso un’espressione matematica.
Questo per me significa una cosa semplice: la matematica fine a sé stessa sta nell’Iperuranio, cioè ha poco contatto con la realtà.
Per favore, non fraintendermi qui. Il nostro mondo funziona grazie alla matematica, ma alla matematica applicata!
Ciò che intendo è che considero la matematica come la legge e la scienza e l’ingegneria come il giudice che deve applicare la legge. Questo vale per qualsiasi scienza, ed è per questo che dico che la matematica per la Data Science dovrebbe essere ingegnerizzata.
Non hai mai sentito parlare di quale sia la cosa più importante da sapere nella Data Science? Beh… è conoscenza del dominio di applicazione!
Non matematica, non statistica, non programmazione: è conoscenza del dominio! Ciò suggerisce ciò che abbiamo detto prima: la Data Science è una scienza pratica in cui dobbiamo applicare la matematica e la statistica a casi reali.
Questo è il motivo per cui non mi interessa la probabilità quando si lanciano le monete.
Mi piace sentire: “Quando è il momento giusto per fare manutenzione alla mia macchina se funziona in quelle condizioni per i prossimi 12 mesi?”
Questo è il potere del Machine Learning, che non è altro che matematica e statistica applicata al mondo reale.
Non c’è nulla di male col lancio delle monete…

Per favore, non fraintendermi: non ho nulla contro il calcolo della probabilità applicato al lancio delle monete ed altre amenità
Ma forse dovremmo solo capire che a molte persone semplicemente non interessa perché hanno bisogno (e amano) risolvere problemi più impegnativi.
Ricordo che trascorrevo le serate con i miei compagni di università a discutere di alcuni argomenti profondi e teorici di matematica. Sembra che i nostri cervelli si espandessero mentre discutevamo e imparavamo insieme gli argomenti più complessi di analisi e algebra.
Quindi, c’è tantissima bellezza anche nella matematica fine a sé stessa. Ma, a un certo punto, ho dovuto rimettere i piedi per terra per provare ad applicare ciò che avevo imparato utilizzando casi pratici, per un motivo semplice: mi ha semplicemente aiutato a comprendere meglio la teoria e le formule.
Quindi, buon per te se lanciare monete ti aiuta a comprendere meglio probabilità e statistica: questo, purtroppo (o per fortuna!) non vale per tutti.
Come la statistica pratica e la probabilità aiutano gli studenti a comprendere meglio la Data Science
Molti studi suggeriscono che un approccio pratico aiuta a comprendere meglio la matematica. Ecco un libro interessante che potrebbe aiutarti in questo.
La domanda è: quando un approccio è “abbastanza pratico”? Calcolare la probabilità di lanciare monete non è “abbastanza pratico”?
Ebbene, i problemi da risolvere dovrebbero essere sia pratici che interessanti…
Quindi, se ti stai avvicinando alla Data Science e hai bisogno di imparare la statistica, dovresti fare uno sforzo per metterti alla prova su problemi reali, se non ti piacciono i problemi legati al lancio delle monete o simili.
Se hai un lavoro, prova ad applicare la Data Science a problemi di tutti i giorni che potresti risolvere con essa.
Ad esempio, supponiamo che lavori nel settore industriale e che tu possa analizzare i dati di produzione. Scegli un prodotto e inizia a chiederti:
- Qual è il tempo medio necessario per produrlo?
- Esiste un momento in cui gli operatori producono il meglio (magari la mattina presto)?
- Qual è la probabilità che ci siano scarti di produzione durante la giornata lavorativa?
E così via. Cerca di essere molto specifico e vedrai che non potrai smettere di farti queste domande e trovare le soluzioni.
Quindi, prova a restare fedele al tuo settore (o a un settore che ami, se non hai un lavoro) e fai le domande giuste che, alla fine, ti faranno amare le statistiche (pratiche).
Conclusioni
Come ho detto all’inizio, questo potrebbe essere un articolo controverso, ma spero che tu ne abbia capito il punto.
L’idea è quella di indurre le persone a fare esempi reali quando si discute di Data Science.
Lo so: è molto eccitante anche calcolare la probabilità che esca croce per l’ottava moneta. Qualcuno, infatti, in quella discussione disse: “Si tratta di una moneta normale oppure è truccata?”.
Bella domanda! Ma ancora una volta… sei interessato?
Beh, mi dispiace, ma io non lo sono. Se non sei interessato a risolvere questo tipo di problemi in statistica, ma vuoi davvero sviluppare una carriera nella Data Science: per favore, non arrenderti. Crea i tuoi esempi per metterti alla prova: vedrai i risultati in pochi giorni.
E… fammi sapere nei commenti cosa ne pensate!
NOTA: l’articolo originale è stato scritto in inglese e pubblicato su Towards Data Science.

Sono Federico Trotta e sono un Technical Writer.
Vuoi collaborare con me? Contattami.