Lucene - Classi di indicizzazione

Il processo di indicizzazione è una delle funzionalità principali fornite da Lucene. Il diagramma seguente illustra il processo di indicizzazione e l'uso delle classi.IndexWriter è il componente più importante e fondamentale del processo di indicizzazione.

Noi aggiungiamo Document(s) contenente Field(s) a IndexWriter che analizza il file Document(s) usando il Analyzer e quindi crea / apre / modifica gli indici come richiesto e li archivia / li aggiorna in un file Directory. IndexWriter viene utilizzato per aggiornare o creare indici. Non viene utilizzato per leggere gli indici.

Classi di indicizzazione

Di seguito è riportato un elenco di classi comunemente utilizzate durante il processo di indicizzazione.

S.No. Classe e descrizione
1 IndexWriter

Questa classe funge da componente principale che crea / aggiorna gli indici durante il processo di indicizzazione.

2 Directory

Questa classe rappresenta la posizione di archiviazione degli indici.

3 Analizzatore

Questa classe è responsabile dell'analisi di un documento e di ottenere i token / parole dal testo che deve essere indicizzato. Senza analisi eseguita, IndexWriter non può creare index.

4 Documento

Questa classe rappresenta un documento virtuale con Fields dove il Field è un oggetto che può contenere il contenuto del documento fisico, i suoi metadati e così via. L'analizzatore può comprendere solo un documento.

5 Campo

Questa è l'unità più bassa o il punto di partenza del processo di indicizzazione. Rappresenta la relazione della coppia chiave-valore in cui una chiave viene utilizzata per identificare il valore da indicizzare. Supponiamo che un campo utilizzato per rappresentare il contenuto di un documento abbia la chiave come "contenuto" e il valore possa contenere la parte o tutto il testo o il contenuto numerico del documento. Lucene può indicizzare solo testo o solo contenuto numerico.