Lucene - Analisi

In uno dei nostri capitoli precedenti, abbiamo visto che Lucene usa IndexWriter per analizzare i documenti utilizzando Analyzer e quindi crea / apre / modifica gli indici come richiesto. In questo capitolo, discuteremo i vari tipi di oggetti Analyzer e altri oggetti rilevanti che vengono utilizzati durante il processo di analisi. Comprendere il processo di analisi e il modo in cui funzionano gli analizzatori ti fornirà informazioni dettagliate su come Lucene indicizza i documenti.

Di seguito è riportato l'elenco degli oggetti di cui discuteremo a tempo debito.

S.No.	Classe e descrizione
1	Gettone Il token rappresenta il testo o la parola in un documento con dettagli rilevanti come i suoi metadati (posizione, offset iniziale, offset finale, tipo di token e incremento di posizione).
2	TokenStream TokenStream è un output del processo di analisi e comprende una serie di token. È una classe astratta.
3	Analizzatore Questa è una classe base astratta per ogni tipo di Analyzer.
4	WhitespaceAnalyzer Questo analizzatore divide il testo in un documento basato su spazi bianchi.
5	SimpleAnalyzer Questo analizzatore divide il testo in un documento in base a caratteri non alfabetici e inserisce il testo in minuscolo.
6	StopAnalyzer Questo analizzatore funziona esattamente come SimpleAnalyzer e rimuove le parole comuni come 'a', 'an', 'the', eccetera.
7	StandardAnalyzer Questo è l'analizzatore più sofisticato ed è in grado di gestire nomi, indirizzi e-mail, ecc. Scrive in minuscolo ogni token e rimuove le parole comuni e la punteggiatura, se presenti.

↰ Previous page Next page ↱

Lucene - Analisi

Lucene Tutorial