Lucene - Classi di indicizzazione
Il processo di indicizzazione è una delle funzionalità principali fornite da Lucene. Il diagramma seguente illustra il processo di indicizzazione e l'uso delle classi.IndexWriter è il componente più importante e fondamentale del processo di indicizzazione.
Noi aggiungiamo Document(s) contenente Field(s) a IndexWriter che analizza il file Document(s) usando il Analyzer e quindi crea / apre / modifica gli indici come richiesto e li archivia / li aggiorna in un file Directory. IndexWriter viene utilizzato per aggiornare o creare indici. Non viene utilizzato per leggere gli indici.
Classi di indicizzazione
Di seguito è riportato un elenco di classi comunemente utilizzate durante il processo di indicizzazione.
S.No. | Classe e descrizione |
---|---|
1 | IndexWriter Questa classe funge da componente principale che crea / aggiorna gli indici durante il processo di indicizzazione. |
2 | Directory Questa classe rappresenta la posizione di archiviazione degli indici. |
3 | Analizzatore Questa classe è responsabile dell'analisi di un documento e di ottenere i token / parole dal testo che deve essere indicizzato. Senza analisi eseguita, IndexWriter non può creare index. |
4 | Documento Questa classe rappresenta un documento virtuale con Fields dove il Field è un oggetto che può contenere il contenuto del documento fisico, i suoi metadati e così via. L'analizzatore può comprendere solo un documento. |
5 | Campo Questa è l'unità più bassa o il punto di partenza del processo di indicizzazione. Rappresenta la relazione della coppia chiave-valore in cui una chiave viene utilizzata per identificare il valore da indicizzare. Supponiamo che un campo utilizzato per rappresentare il contenuto di un documento abbia la chiave come "contenuto" e il valore possa contenere la parte o tutto il testo o il contenuto numerico del documento. Lucene può indicizzare solo testo o solo contenuto numerico. |