Maiale Apache - TOKENIZE ()

Il TOKENIZE() La funzione di Pig Latin viene utilizzata per dividere una stringa (che contiene un gruppo di parole) in una singola tupla e restituisce un sacchetto che contiene l'output dell'operazione di divisione.

Sintassi

Di seguito è riportata la sintassi di TOKENIZE() funzione.

grunt> TOKENIZE(expression [, 'field_delimiter'])

Come delimitazione del file TOKENIZE() , possiamo passare spazio [], virgolette doppie [""], virgola [,], parentesi [()], stella [*].

Esempio

Supponiamo di avere un file denominato student_details.txt nella directory HDFS /pig_data/come mostrato di seguito. Questo file contiene i dettagli di uno studente come ID, nome, età e città. Se osserviamo attentamente, il nome dello studente include nomi e cognomi separati da spazio [].

student_details.txt

001,Rajiv Reddy,21,Hyderabad
002,siddarth Battacharya,22,Kolkata 
003,Rajesh Khanna,22,Delhi 
004,Preethi Agarwal,21,Pune 
005,Trupthi Mohanthy,23,Bhuwaneshwar 
006,Archana Mishra,23 ,Chennai 
007,Komal Nayak,24,trivendram 
008,Bharathi Nambiayar,24,Chennai

Abbiamo caricato questo file in Pig con il nome della relazione student_details come mostrato di seguito.

grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int,  city:chararray);

Tokenizzare una stringa

Possiamo usare il file TOKENIZE()funzione per dividere una stringa. Come esempio dividiamo il nome usando questa funzione come mostrato di seguito.

grunt> student_name_tokenize = foreach student_details  Generate TOKENIZE(name);

Verifica

Verifica la relazione student_name_tokenize usando il DUMP operatore come mostrato di seguito.

grunt> Dump student_name_tokenize;

Produzione

Produrrà il seguente output, visualizzando il contenuto della relazione student_name_tokenize come segue.

({(Rajaiv),(Reddy)})
({(siddarth),(Battacharya)})
({(Rajesh),(Khanna)})
({(Preethi),(Agarwal)})
({(Trupthi),(Mohanthy)})
({(Archana),(Mishra)})
({(Komal),(Nayak)})
({(Bharathi),(Nambiayar)})

Altri delimitatori

Allo stesso modo, includendo lo spazio [], la funzione TOKENIZE () accetta virgolette doppie [""], virgola [,], parentesi [()], stella [*] come delimitatori.

Esempio

Supponiamo che ci sia un file denominato details.txtcon i dettagli degli studenti come ID, nome, età e città. Sotto la colonna del nome questo file contiene il nome e il cognome degli studenti separati da vari delimitatori come mostrato di seguito.

details.txt

001,"siddarth""Battacharya",22,Kolkata 
002,Rajesh*Khanna,22,Delhi 
003,(Preethi)(Agarwal),21,Pune

Abbiamo caricato questo file in Pig con il nome della relazione details come mostrato di seguito.

grunt> details = LOAD 'hdfs://localhost:9000/pig_data/details.txt' USING PigStorage(',')
   as (id:int, name:chararray, age:int,  city:chararray);

Ora prova a separare il nome e il cognome degli studenti utilizzando TOKENIZE () come segue.

grunt> tokenize_data = foreach details Generate TOKENIZE(name);

Dopo aver verificato il file tokenize_data relazione usando l'operatore dump otterrai il seguente risultato.

grunt> Dump tokenize_data;

({(siddarth),(Battacharya)})
({(Rajesh),(Khanna)})
({(Preethi),(Agarwal)})