Preprocessing dei dati

Quando si affronta un problema di machine learning il primo passo consiste nel predisporre un buon training set a partire dai dataset disponibili in modo da costruire un modello accurato.

Quindi dobbiamo fare un’analisi preliminare in modo da evidenziare eventuali criticità e nel caso ristrutturare i dati in modo da eliminarle e rendere gli stessi compatibili con i tool utilizzati.

Per esempio verifichiamo e quantifichiamo la presenza di valori nulli rispetto alle features. Dal momento che questi possono inficiare la bontà del modello occorre eliminarli. Possiamo procedere in due modi:

  • rimuovere gli esempi con valori nulli
  •  sostituire i valori nulli con altri calcolati in maniera opportuna (media o moda della relativa colonna)

Nei problemi di classificazione si ha spesso a che fare con categorie non numeriche che possono creare problemi con Scikit-learn. Per cui occorre mappare opportunamente le classi con valori ordinali.

Nel caso di valori numerici è abbastanza comune ricorrere alla normalizzazione e alla standardizzazione dei dati.

Ma cosa significa esattamente?

La normalizzazione consente di mappare i valori nell’intervallo [0,1] e si ottiene trasformando ciascun datapoint x_i in

x_i = \frac{x_i-xmin}{xmax - xmin}

dove xmin e xmax sono rispettivamente il minimo e il massimo dell’intervallo di partenza.

La standardizzazione punta a centrare i dati intorno allo 0 e a scalarli tenendo presente la deviazione standard.

Ciascun x_i diventa

x_i = \frac{x_i-\mu}{\sigma}

dove \mu è la media e \sigma è appunto la deviazione standard.

Naturalmente queste trasformazioni agiscono solo sull’intervallo dei dati ma non sulla loro distribuzione che resta inalterata.

Lascia una risposta

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati *

Utilizzando il sito, accetti l'invio dei cookies da parte nostra. Maggiori informazioni

Questo sito utilizza i cookies per fornire la migliore esperienza di navigazione possibile. Continuando ad utilizzarlo senza modificare le impostazioni o cliccando su "Accetta" acconsenti al loro utilizzo.

Chiudi