Come Studiare Python Per La Data Science

I dati sono il nuovo petrolio e, data l’hype nel campo della Data Science, ci sono molte persone che studiano Data Science, cercando di cambiare carriera. Online, ci sono moltissimi corsi disponibili: come scegliere quello giusto? E cosa significa studiare “Python per la Data Science”? Sembra che ogni corso ti insegni esattamente Python per la Data Science; ma è davvero così?
In questo articolo, ti darò le mie risposte, basate sul mio percorso di studio e pratica della Data Science con Python.
Consiglio n. 1: come imparare le basi di Python per la Data Science
Devo dirti subito la verità: il vero problema su cui concentrarsi non è “il corso giusto”. Cercare “il corso giusto” – magari quello che ti promette un lavoro dopo il corso – non è ciò su cui dovresti concentrarti (beh, ci sono davvero corsi che ti aiutano a trovare un lavoro, te lo assicuro; ma non è questo il punto).
Se vuoi imparare “Python per la Data Science”, quasi tutti i corsi ti insegneranno le stesse cose (quasi: stiamo parlando delle basi).
Quindi, scegli un corso e:
- Fai molta pratica. La pratica ti rende uno sviluppatore, non guardare solo video. Guarda i video, leggi le lezioni e… fai molti esercizi [consiglio extra: scegli un corso con progetti, in modo da avere delle linee guida durante il tuo tempo di pratica].
- Padroneggia le basi. Le basi sono le fondamenta di tutto; non puoi iniziare a costruire una casa dal tetto. Quindi, impara bene: liste, tuple, dizionari, cicli e cose del genere. E, naturalmente: metti in pratica questi concetti.
- Lascia le funzioni e le classi per dopo. Lo so, qualcuno potrebbe storcere il naso, ma lasciami spiegare. Nei corsi di Python le funzioni e le classi ti sembreranno facili, ma non lo sono. Avrai bisogno di funzioni e classi quando avrai davvero programmato molto. Per essere chiari (semplificando): hai bisogno di una funzione quando copi e incolli le stesse righe di codice, e hai bisogno di classi quando copi e incolli le stesse funzioni. Quindi, semplificando, hai bisogno di funzioni e classi quando vuoi “automatizzare” il tuo codice, cosa che non fai all’inizio. Se studi Python per la Data Science, vuoi analizzare dati. Quindi il mio consiglio è: capisci le funzioni e le classi, ma solo a livello di comprensione generale; non concentrarti troppo su di esse. Quando avrai analizzato i dati, definisci i tuoi standard e crea le tue funzioni e classi per automatizzare il tuo codice.
Consiglio n.2: Statistica, Matplotlib, e Seaborn
Dopo aver padroneggiato le basi di Python, inizierai ad analizzare i dati principalmente con Numpy e Pandas e, poiché ami i dati, vorrai creare alcuni grafici. Quindi, è necessario conoscere un po’ di statistica e un paio di librerie per la visualizzazione dei dati: Matplotlib e Seaborn.
Sarò chiaro riguardo alla statistica: non è necessario essere uno statistico per fare Data Science. Soprattutto all’inizio, limitati a padroneggiare le basi come:
- la distribuzione normale
- cosa sono la media, la moda e la mediana
- qual è la differenza tra un grafico a barre e un istogramma (sì, c’è una differenza!)
- cosa è un boxplot e quali informazioni possiamo ottenere da esso
- cosa è la correlazione e come affrontarla. Qui trovi un articolo che ho scritto su questo argomento che potrebbe esserti utile E così via.
Non è necessario conoscere argomenti statistici avanzati per analizzare i dati e fare Data Science. Inizia con le basi, comprendile e padroneggiale con la pratica.
Quando si tratta di creare grafici, le mie raccomandazioni sono:
- Inizia con Matplotlib. Matplotlib è una libreria molto potente per la visualizzazione dei dati. Il suo svantaggio, secondo me, è che a volte devi scrivere un po’ troppo codice per creare un grafico. Ma vale la pena impararla, perché nel frattempo starai migliorando le tue abilità di programmazione.
- Dopo un po’, inizia ad utilizzare Seaborn. Quando inizierai ad utilizzare Seaborn, apprezzerai la sua sintesi e semplicità, pur avendo la possibilità di creare grafici complessi. Potresti persino chiederti perché non l’hai imparato prima e la ragione è semplice: Matplotlib è più facile da capire. Inoltre, la verità è che una volta imparato anche Seaborn, userai entrambi Matplotlib e Seaborn, talvolta anche nello stesso grafico.
- Altre strumenti e librerie di visualizzazione (come Plotly). Dopo aver padroneggiato Matplotlib e Seaborn, potresti voler provare altri strumenti e visualizzazioni. Questo va benissimo, ma il mio consiglio è di non entrare nella tana del bianconiglio. Tutte queste librerie e informazioni possono anche confonderti; la verità è che spesso utilizzerai software dedicati per la visualizzazione dei dati (come Power BI o Tableau). Esplora tutto ciò che ti interessa, ma il mio consiglio finale qui è di capire di cosa potresti aver bisogno in un ambiente di lavoro reale e di utilizzare questi strumenti e software.
Consiglio n. 3: Machine Learning
Qui non ci sono dubbi: utilizza scikit-learn come libreria per il Machine Learning. Come vedrai, scikit-learn è una libreria enorme con molte funzionalità, ma – come potresti sapere – il Machine Learning è un campo vasto, quindi la sua principale libreria deve esserlo.
Prima di immergerti nei modelli di ML, le mie raccomandazioni sono:
- comprendere la differenza tra regressione e classificazione, poiché sono i due tipi principali di problemi che affronterai nell’ambito del Machine Learning
- comprendere l’importanza della suddivisione del tuo dataframe in set di addestramento, validazione e test e iniziare a praticare la funzione “train_test_split()” in scikit-learn
- comprendere le metriche con cui puoi validare i tuoi modelli. Ad esempio, inizia con un semplice problema di regressione lineare e inizia a utilizzare MSE (Mean Squared Error) e RMSE (Root Mean Squared Error) per validare il tuo modello.
Conclusioni
La cosa importante che voglio sottolineare è che il percorso di apprendimento non è lineare, come potresti pensare, ma questa è una verità generale. Se stai avendo difficoltà con un concetto, non c’è bisogno di impazzire: va bene lasciarlo da parte e tornarci più avanti.
Ad esempio, come ho detto: se stai avendo difficoltà con le funzioni e le classi, cerca semplicemente di comprenderle, capire come utilizzarle e quando utilizzarle; poi, torna su di esse quando capisci di averne bisogno (approfondendo i concetti, utilizzandoli nel tuo codice).
NOTA: questo articoli è stato tradotto in italiano, ma l’originale l’ho scritto in inglese ed è stato pubblicato da Towards Data Science qui.

Sono Federico Trotta e sono un Technical Writer.
Vuoi collaborare con me? Contattami.