Maiale Apache - TOKENIZE ()
Il TOKENIZE() La funzione di Pig Latin viene utilizzata per dividere una stringa (che contiene un gruppo di parole) in una singola tupla e restituisce un sacchetto che contiene l'output dell'operazione di divisione.
Sintassi
Di seguito è riportata la sintassi di TOKENIZE() funzione.
grunt> TOKENIZE(expression [, 'field_delimiter'])
Come delimitazione del file TOKENIZE() , possiamo passare spazio [], virgolette doppie [""], virgola [,], parentesi [()], stella [*].
Esempio
Supponiamo di avere un file denominato student_details.txt nella directory HDFS /pig_data/come mostrato di seguito. Questo file contiene i dettagli di uno studente come ID, nome, età e città. Se osserviamo attentamente, il nome dello studente include nomi e cognomi separati da spazio [].
student_details.txt
001,Rajiv Reddy,21,Hyderabad
002,siddarth Battacharya,22,Kolkata
003,Rajesh Khanna,22,Delhi
004,Preethi Agarwal,21,Pune
005,Trupthi Mohanthy,23,Bhuwaneshwar
006,Archana Mishra,23 ,Chennai
007,Komal Nayak,24,trivendram
008,Bharathi Nambiayar,24,Chennai
Abbiamo caricato questo file in Pig con il nome della relazione student_details come mostrato di seguito.
grunt> student_details = LOAD 'hdfs://localhost:9000/pig_data/student_details.txt' USING PigStorage(',')
as (id:int, name:chararray, age:int, city:chararray);
Tokenizzare una stringa
Possiamo usare il file TOKENIZE()funzione per dividere una stringa. Come esempio dividiamo il nome usando questa funzione come mostrato di seguito.
grunt> student_name_tokenize = foreach student_details Generate TOKENIZE(name);
Verifica
Verifica la relazione student_name_tokenize usando il DUMP operatore come mostrato di seguito.
grunt> Dump student_name_tokenize;
Produzione
Produrrà il seguente output, visualizzando il contenuto della relazione student_name_tokenize come segue.
({(Rajaiv),(Reddy)})
({(siddarth),(Battacharya)})
({(Rajesh),(Khanna)})
({(Preethi),(Agarwal)})
({(Trupthi),(Mohanthy)})
({(Archana),(Mishra)})
({(Komal),(Nayak)})
({(Bharathi),(Nambiayar)})
Altri delimitatori
Allo stesso modo, includendo lo spazio [], la funzione TOKENIZE () accetta virgolette doppie [""], virgola [,], parentesi [()], stella [*] come delimitatori.
Esempio
Supponiamo che ci sia un file denominato details.txtcon i dettagli degli studenti come ID, nome, età e città. Sotto la colonna del nome questo file contiene il nome e il cognome degli studenti separati da vari delimitatori come mostrato di seguito.
details.txt
001,"siddarth""Battacharya",22,Kolkata
002,Rajesh*Khanna,22,Delhi
003,(Preethi)(Agarwal),21,Pune
Abbiamo caricato questo file in Pig con il nome della relazione details come mostrato di seguito.
grunt> details = LOAD 'hdfs://localhost:9000/pig_data/details.txt' USING PigStorage(',')
as (id:int, name:chararray, age:int, city:chararray);
Ora prova a separare il nome e il cognome degli studenti utilizzando TOKENIZE () come segue.
grunt> tokenize_data = foreach details Generate TOKENIZE(name);
Dopo aver verificato il file tokenize_data relazione usando l'operatore dump otterrai il seguente risultato.
grunt> Dump tokenize_data;
({(siddarth),(Battacharya)})
({(Rajesh),(Khanna)})
({(Preethi),(Agarwal)})