Regressione logistica in Python - Divisione dei dati

Abbiamo circa quarantunomila record dispari. Se utilizziamo tutti i dati per la costruzione del modello, non ci resterà alcun dato per il test. Quindi, in generale, dividiamo l'intero set di dati in due parti, diciamo una percentuale del 70/30. Utilizziamo il 70% dei dati per la creazione del modello e il resto per testare l'accuratezza nella previsione del modello creato. È possibile utilizzare un rapporto di divisione diverso in base alle proprie esigenze.

Creazione di array di funzionalità

Prima di dividere i dati, separiamo i dati in due array X e Y. L'array X contiene tutte le caratteristiche (colonne di dati) che vogliamo analizzare e l'array Y è un array monodimensionale di valori booleani che è l'output di la previsione. Per capirlo, eseguiamo del codice.

Innanzitutto, esegui la seguente istruzione Python per creare l'array X:

In [17]: X = data.iloc[:,1:]

Per esaminare il contenuto di X uso headper stampare alcuni record iniziali. La schermata seguente mostra il contenuto dell'array X.

In [18]: X.head ()

La matrice ha diverse righe e 23 colonne.

Successivamente, creeremo un array di output contenente "y" valori.

Creazione di array di output

Per creare un array per la colonna del valore previsto, utilizzare la seguente istruzione Python:

In [19]: Y = data.iloc[:,0]

Esaminare il suo contenuto chiamando head. L'output dello schermo di seguito mostra il risultato:

In [20]: Y.head()
Out[20]: 0   0
1    0
2    1
3    0
4    1
Name: y, dtype: int64

Ora, dividi i dati usando il seguente comando:

In [21]: X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0)

Questo creerà i quattro array chiamati X_train, Y_train, X_test, and Y_test. Come prima, puoi esaminare il contenuto di questi array usando il comando head. Useremo gli array X_train e Y_train per l'addestramento del nostro modello e gli array X_test e Y_test per il test e la convalida.

Ora siamo pronti per costruire il nostro classificatore. Lo esamineremo nel prossimo capitolo.