Pulizia dei dati con funzioni di testo
I dati che si ottengono da diverse fonti molti non sono in una forma pronta per l'analisi. In questo capitolo capirai come preparare i tuoi dati sotto forma di testo per l'analisi.
Inizialmente, è necessario pulire i dati. La pulizia dei dati include la rimozione di caratteri indesiderati dal testo. Successivamente, è necessario strutturare i dati nella forma richiesta per ulteriori analisi. Puoi fare lo stesso:
- Trovare i modelli di testo richiesti con le funzioni di testo.
- Estrazione dei valori dei dati dal testo.
- Formattazione dei dati con funzioni di testo.
- Esecuzione di operazioni sui dati con le funzioni di testo.
Rimozione di caratteri indesiderati dal testo
Quando si importano dati da un'altra applicazione, possono contenere caratteri non stampabili e / o spazi in eccesso. Gli spazi in eccesso possono essere -
- spazi iniziali e / o
- spazi extra tra le parole.
Se ordinate o analizzate tali dati, otterrete risultati errati.
Considera il seguente esempio:
Questi sono i dati grezzi che hai ottenuto sulle informazioni del prodotto contenenti l'ID prodotto, la descrizione del prodotto e il prezzo. Il carattere "|" separa il campo in ogni riga.
Quando importi questi dati nel foglio di lavoro di Excel, appare come segue:
Come osservi, tutti i dati sono in una singola colonna. È necessario strutturare questi dati per eseguire l'analisi dei dati. Tuttavia, inizialmente è necessario pulire i dati.
È necessario rimuovere tutti i caratteri non stampabili e gli spazi in eccesso che potrebbero essere presenti nei dati. A tale scopo è possibile utilizzare la funzione CLEAN e la funzione TRIM.
S.No. | Descrizione della funzione |
---|---|
1. | CLEAN Rimuove tutti i caratteri non stampabili dal testo |
2. | TRIM Rimuove gli spazi dal testo |
- Seleziona le celle C3 - C11.
- Digitare = TRIM (CLEAN (B3)) e quindi premere CTRL + Invio.
La formula è inserita nelle celle C3 - C11.
Il risultato sarà come mostrato di seguito -
Trovare i modelli di testo richiesti con le funzioni di testo
Per strutturare i dati, potrebbe essere necessario eseguire determinate corrispondenze di modelli di testo in base alle quali è possibile estrarre i valori dei dati. Alcune delle funzioni di testo utili a questo scopo sono:
S.No. | Descrizione della funzione |
---|---|
1. | EXACT Verifica se due valori di testo sono identici |
2. | FIND Trova un valore di testo all'interno di un altro (distingue tra maiuscole e minuscole) |
3. | SEARCH Trova un valore di testo all'interno di un altro (senza distinzione tra maiuscole e minuscole) |
Estrazione dei valori dei dati dal testo
È necessario estrarre i dati richiesti dal testo per strutturare lo stesso. Nell'esempio sopra, ad esempio, è necessario posizionare i dati in tre colonne: ProductID, Product_Description e Price.
Puoi estrarre i dati in uno dei seguenti modi:
- Estrazione dei valori dei dati con la procedura guidata Converti testo in colonne
- Estrazione di valori di dati con funzioni di testo
- Estrazione dei valori dei dati con riempimento Flash
Estrazione dei valori dei dati con la procedura guidata Converti testo in colonne
Puoi usare il file Convert Text to Columns Wizard per estrarre i valori dei dati nelle colonne di Excel se i campi sono:
- Delimitato da un carattere, o
- Allineato in colonne con spazi tra ogni campo.
Nell'esempio precedente, i campi sono delimitati dal carattere "|". Quindi, puoi usare ilConvert Text to Columns procedura guidata.
Seleziona i dati.
Copia e incolla i valori nello stesso posto. Altrimenti,Convert Text to Columns prende le funzioni piuttosto che i dati stessi come input.
Seleziona i dati.
Clicca su Text to Columns nel Data Tools gruppo sotto Data Scheda sulla barra multifunzione.
Step 1 - Conversione guidata testo in colonne - Viene visualizzato il passaggio 1 di 3.
- Seleziona Delimitato.
- Fare clic su Avanti.
Step 2 - Conversione guidata testo in colonne - Viene visualizzato il passaggio 2 di 3.
Sotto Delimiters, Selezionare Other.
Nella casella accanto a Other, digita il carattere |
Clic Next.
Step 3 - Conversione guidata testo in colonne - Viene visualizzato il passaggio 3 di 3.
In questa schermata, puoi selezionare ogni colonna dei tuoi dati nella procedura guidata e impostare il formato per quella colonna.
Per Destination, seleziona la cella D3.
Puoi fare clic Advancede impostare Decimal Separator e Thousands Separator nel Advanced Text Import Settings finestra di dialogo che appare.
Clic Finish.
I tuoi dati, che vengono convertiti in colonne, vengono visualizzati nelle tre colonne: D, E e F.
- Assegna alle intestazioni di colonna il nome ProductID, Product_Description e Price.
Estrazione di valori di dati con funzioni di testo
Supponiamo che i campi nei tuoi dati non siano delimitati da un carattere né siano allineati in colonne con spazi tra ogni campo, puoi usare funzioni di testo per estrarre i valori dei dati. Anche nel caso in cui i campi siano delimitati, è comunque possibile utilizzare le funzioni di testo per estrarre i dati.
Alcune delle funzioni di testo utili a questo scopo sono:
S.No. | Descrizione della funzione |
---|---|
1. | LEFT Restituisce i caratteri più a sinistra da un valore di testo |
2. | RIGHT Restituisce i caratteri più a destra da un valore di testo |
3. | MID Restituisce un numero specifico di caratteri da una stringa di testo a partire dalla posizione specificata |
4. | LEN Restituisce il numero di caratteri in una stringa di testo |
Puoi anche combinare due o più di queste funzioni di testo secondo i dati che hai a portata di mano, per estrarre i valori dei dati richiesti. Ad esempio, utilizzando una combinazione di funzioni LEFT, RIGHT e VALUE o utilizzando una combinazione di funzioni FIND, LEFT, LEN e MID.
Nell'esempio sopra,
Tutti i caratteri rimasti al primo | dare il nome ProductID.
Tutti i caratteri fino alla seconda | dare il nome Price.
Tutti i caratteri che si trovano tra i primi | e secondo | dare il nome Product_Description.
Ogni | ha uno spazio prima e dopo.
Osservando queste informazioni, puoi estrarre i valori dei dati con i seguenti passaggi:
Trova la posizione del primo | -First | Position
È possibile utilizzare la funzione TROVA
Trova la posizione del secondo | -Second | Position
È possibile utilizzare nuovamente la funzione TROVA
A partire da (First | Position - 2) I caratteri del testo danno ProductID
È possibile utilizzare la funzione SINISTRA
(First | Position + 2) a (Second | Position - 2) I caratteri del testo danno Product_Description
È possibile utilizzare la funzione MID
(Second | Position + 2) alla fine i caratteri del testo danno il prezzo
È possibile utilizzare la funzione DESTRA
Il risultato sarà come mostrato di seguito -
Puoi osservare che i valori nella colonna del prezzo sono valori di testo. Per eseguire calcoli su questi valori, è necessario formattare le celle corrispondenti. Puoi guardare la sezione fornita di seguito per comprendere la formattazione del testo.
Estrazione dei valori dei dati con riempimento Flash
Utilizzando Excel Flash Fillè un altro modo per estrarre i valori dei dati dal testo. Tuttavia, questo funziona solo quando Excel è in grado di trovare un modello nei dati.
Step 1 - Crea tre colonne per ProductID, Product_Description e Price accanto ai dati.
Step 2 - Copia e incolla i valori per C3, D3 ed E3 da B3.
Step 3 - Seleziona la cella C3 e fai clic Flash Fill nel Data Tools gruppo sul Datatab. Tutti i valori per ProductID vengono riempiti.
Step 4- Ripeti i passaggi sopra indicati per Product_Description e Price. I dati vengono inseriti.
Formattazione dei dati con funzioni di testo
Excel ha diverse funzioni di testo incorporate che puoi usare per formattare i dati che contengono testo. Questi includono:
Functions that format the Text as per your need -
S.No. | Descrizione della funzione |
---|---|
1. | LOWER Converte il testo in minuscolo |
S.No. | Descrizione della funzione |
---|---|
1. | UPPER Converte il testo in maiuscolo |
2. | PROPER Rende maiuscola la prima lettera di ogni parola di un valore di testo |
Functions that convert and/or format the Numbers as Text -
S.No. | Descrizione della funzione |
---|---|
1. | DOLLAR Converte un numero in testo, utilizzando il formato di valuta $ (dollaro) |
2. | FIXED Formatta un numero come testo con un numero fisso di decimali |
3. | TEXT Formatta un numero e lo converte in testo |
Functions that convert the Text to Numbers -
S.No. | Descrizione della funzione |
---|---|
1. | VALUE Converte un argomento di testo in un numero |
Executing Data Operations with the Text Functions
Potrebbe essere necessario eseguire determinate operazioni di testo sui dati. Ad esempio, se gli ID di accesso per i dipendenti vengono modificati in un nuovo formato in un'organizzazione, in base al cambio di formato, potrebbe essere necessario eseguire la sostituzione del testo.
Le seguenti funzioni di testo ti aiutano a eseguire operazioni di testo sui tuoi dati contenenti testo -
S.No. | Descrizione della funzione |
---|---|
1. | REPLACE Sostituisce i caratteri all'interno del testo |
2. | SUBSTITUTE Sostituisce il nuovo testo con il vecchio testo in una stringa di testo |
3. | CONCATENATE Unisce diversi elementi di testo in un elemento di testo |
4. | CONCAT Combina il testo da più intervalli e / o stringhe, ma non fornisce il delimitatore o gli argomenti IgnoreEmpty. |
5. | TEXTJOIN Combina il testo da più intervalli e / o stringhe e include un delimitatore specificato tra ogni valore di testo che verrà combinato. Se il delimitatore è una stringa di testo vuota, questa funzione concatenerà efficacemente gli intervalli. |
6. | REPT Ripete il testo un determinato numero di volte |