Regressione logistica in Python - Acquisizione di dati

I passaggi necessari per ottenere i dati per eseguire la regressione logistica in Python sono discussi in dettaglio in questo capitolo.

Download del set di dati

Se non hai ancora scaricato il set di dati UCI menzionato in precedenza, scaricalo ora da qui . Fare clic sulla cartella dei dati. Vedrai la seguente schermata:

Scarica il file bank.zip facendo clic sul link indicato. Il file zip contiene i seguenti file:

Useremo il file bank.csv per lo sviluppo del nostro modello. Il file bank-names.txt contiene la descrizione del database che ti servirà in seguito. Il bank-full.csv contiene un set di dati molto più ampio che puoi utilizzare per sviluppi più avanzati.

Qui abbiamo incluso il file bank.csv nello zip sorgente scaricabile. Questo file contiene i campi delimitati da virgole. Abbiamo anche apportato alcune modifiche al file. Si consiglia di utilizzare il file incluso nel codice sorgente del progetto per l'apprendimento.

Caricamento dati

Per caricare i dati dal file CSV appena copiato, digita la seguente istruzione ed esegui il codice.

In [2]: df = pd.read_csv('bank.csv', header=0)

Sarai anche in grado di esaminare i dati caricati eseguendo la seguente istruzione di codice:

IN [3]: df.head()

Una volta eseguito il comando, vedrai il seguente output:

Fondamentalmente, ha stampato le prime cinque righe dei dati caricati. Esamina le 21 colonne presenti. Useremo solo poche colonne da queste per lo sviluppo del nostro modello.

Successivamente, dobbiamo pulire i dati. I dati possono contenere alcune righe conNaN. Per eliminare tali righe, utilizzare il seguente comando:

IN [4]: df = df.dropna()

Fortunatamente, bank.csv non contiene righe con NaN, quindi questo passaggio non è veramente richiesto nel nostro caso. Tuttavia, in generale è difficile scoprire tali righe in un enorme database. Quindi è sempre più sicuro eseguire l'istruzione precedente per pulire i dati.

Note - È possibile esaminare facilmente la dimensione dei dati in qualsiasi momento utilizzando la seguente dichiarazione:

IN [5]: print (df.shape)
(41188, 21)

Il numero di righe e colonne verrebbe stampato nell'output come mostrato nella seconda riga sopra.

La prossima cosa da fare è esaminare l'idoneità di ogni colonna per il modello che stiamo cercando di costruire.