Lucene - Analisi

In uno dei nostri capitoli precedenti, abbiamo visto che Lucene usa IndexWriter per analizzare i documenti utilizzando Analyzer e quindi crea / apre / modifica gli indici come richiesto. In questo capitolo, discuteremo i vari tipi di oggetti Analyzer e altri oggetti rilevanti che vengono utilizzati durante il processo di analisi. Comprendere il processo di analisi e il modo in cui funzionano gli analizzatori ti fornirà informazioni dettagliate su come Lucene indicizza i documenti.

Di seguito è riportato l'elenco degli oggetti di cui discuteremo a tempo debito.

S.No. Classe e descrizione
1 Gettone

Il token rappresenta il testo o la parola in un documento con dettagli rilevanti come i suoi metadati (posizione, offset iniziale, offset finale, tipo di token e incremento di posizione).

2 TokenStream

TokenStream è un output del processo di analisi e comprende una serie di token. È una classe astratta.

3 Analizzatore

Questa è una classe base astratta per ogni tipo di Analyzer.

4 WhitespaceAnalyzer

Questo analizzatore divide il testo in un documento basato su spazi bianchi.

5 SimpleAnalyzer

Questo analizzatore divide il testo in un documento in base a caratteri non alfabetici e inserisce il testo in minuscolo.

6 StopAnalyzer

Questo analizzatore funziona esattamente come SimpleAnalyzer e rimuove le parole comuni come 'a', 'an', 'the', eccetera.

7 StandardAnalyzer

Questo è l'analizzatore più sofisticato ed è in grado di gestire nomi, indirizzi e-mail, ecc. Scrive in minuscolo ogni token e rimuove le parole comuni e la punteggiatura, se presenti.