SAS - Sottoinsiemi di dati

Sottoporre un set di dati SAS significa estrarre una parte del set di dati selezionando un numero inferiore di variabili o un numero inferiore di osservazioni o entrambi. Mentre il sottoinserimento delle variabili viene eseguito utilizzandoKEEP e DROP dichiarazione, l'impostazione secondaria delle osservazioni viene eseguita utilizzando DELETE dichiarazione.

Anche i dati risultanti dall'operazione di sottoinsieme sono contenuti in un nuovo set di dati che può essere utilizzato per ulteriori analisi. L'impostazione secondaria viene utilizzata principalmente allo scopo di analizzare una parte del set di dati senza utilizzare quelle variabili o osservazioni che potrebbero non essere rilevanti per l'analisi.

Variabili di sottoinsieme

In questo metodo estraiamo solo poche variabili dall'intero set di dati.

Sintassi

La sintassi di base per le variabili di impostazione secondaria in SAS è:

KEEP var1 var2 ... ;
DROP var1 var2 ... ;

Di seguito la descrizione dei parametri utilizzati:

  • var1 and var2 sono i nomi delle variabili dal set di dati che devono essere conservati o eliminati.

Esempio

Considera il set di dati SAS di seguito contenente i dettagli dei dipendenti di un'organizzazione. Se siamo interessati solo a ottenere i valori Name e Department dal set di dati, possiamo utilizzare il codice seguente.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   KEEP ename DEPT;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Quando il codice precedente viene eseguito, otteniamo il seguente output.

Lo stesso risultato può essere ottenuto eliminando le variabili non richieste. Il codice seguente lo illustra.

DATA Employee; 
   INPUT empid ename $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3 	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   DROP empid salary;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Osservazioni di sottoinserimento

In questo metodo estraiamo solo poche osservazioni dall'intero set di dati.

Sintassi

Usiamo PROC FREQ che tiene traccia delle osservazioni selezionate per il nuovo set di dati.

La sintassi per le osservazioni delle impostazioni secondarie è:

IF Var Condition THEN DELETE ;

Di seguito la descrizione dei parametri utilizzati:

  • Var è il nome della variabile in base al cui valore verranno eliminate le osservazioni utilizzando la condizione specificata.

Esempio

Considera il set di dati SAS di seguito contenente i dettagli dei dipendenti di un'organizzazione. Se siamo interessati solo a ottenere i dati per i dipendenti con stipendio superiore a 700, utilizziamo il codice seguente.

DATA Employee; 
   INPUT empid name $ salary DEPT $ ; 
DATALINES; 
1 Rick 623.3	IT 		 
2 Dan 515.2 	OPS	
3 Mike 611.5 	IT 	
4 Ryan 729.1    HR 
5 Gary 843.25   FIN 
6 Tusar 578.6   IT 
7 Pranab 632.8  OPS
8 Rasmi 722.5   FIN 
;
RUN;
DATA OnlyDept;
   SET Employee;
   IF salary < 700 THEN DELETE;
   RUN;
   PROC PRINT DATA = OnlyDept; 
RUN;

Quando il codice precedente viene eseguito, otteniamo il seguente output.