PNL - Recupero delle informazioni

Il recupero delle informazioni (IR) può essere definito come un programma software che si occupa dell'organizzazione, dell'archiviazione, del recupero e della valutazione delle informazioni dagli archivi di documenti, in particolare delle informazioni testuali. Il sistema aiuta gli utenti a trovare le informazioni di cui hanno bisogno ma non restituisce esplicitamente le risposte alle domande. Informa l'esistenza e l'ubicazione di documenti che potrebbero consistere nelle informazioni richieste. I documenti che soddisfano le esigenze dell'utente sono chiamati documenti rilevanti. Un perfetto sistema IR recupererà solo i documenti rilevanti.

Con l'aiuto del diagramma seguente, possiamo comprendere il processo di recupero delle informazioni (IR) -

È chiaro dal diagramma sopra che un utente che necessita di informazioni dovrà formulare una richiesta sotto forma di query in linguaggio naturale. Quindi il sistema IR risponderà recuperando l'output pertinente, sotto forma di documenti, sulle informazioni richieste.

Problema classico nel sistema di recupero delle informazioni (IR)

L'obiettivo principale della ricerca IR è sviluppare un modello per il recupero di informazioni dagli archivi di documenti. Qui, discuteremo un problema classico, denominatoad-hoc retrieval problem, relativo al sistema IR.

Nel recupero ad hoc, l'utente deve inserire una query in linguaggio naturale che descriva le informazioni richieste. Quindi il sistema IR restituirà i documenti richiesti relativi alle informazioni desiderate. Ad esempio, supponiamo che stiamo cercando qualcosa su Internet e che fornisce alcune pagine esatte che sono rilevanti secondo i nostri requisiti, ma possono esserci anche alcune pagine non pertinenti. Ciò è dovuto al problema del recupero ad hoc.

Aspetti del recupero ad hoc

Di seguito sono riportati alcuni aspetti del recupero ad hoc che vengono affrontati nella ricerca IR -

  • In che modo gli utenti con l'aiuto del feedback sulla pertinenza possono migliorare la formulazione originale di una query?

  • Come implementare l'unione di database, ovvero come i risultati di diversi database di testo possono essere uniti in un unico set di risultati?

  • Come gestire i dati parzialmente danneggiati? Quali modelli sono appropriati per lo stesso?

Modello di recupero delle informazioni (IR)

Matematicamente, i modelli vengono utilizzati in molte aree scientifiche con l'obiettivo di comprendere alcuni fenomeni nel mondo reale. Un modello di recupero delle informazioni prevede e spiega cosa troverà un utente in relazione alla query data. Il modello IR è fondamentalmente un modello che definisce gli aspetti sopra menzionati della procedura di recupero e consiste nei seguenti:

  • Un modello per documenti.

  • Un modello per le query.

  • Una funzione di corrispondenza che confronta le query con i documenti.

Matematicamente, un modello di recupero è costituito da:

D - Rappresentanza per documenti.

R - Rappresentanza per domande.

F - Il framework di modellazione per D, Q e la relazione tra di loro.

R (q,di)- Una funzione di similarità che ordina i documenti rispetto alla query. Si chiama anche classifica.

Tipi di modello di recupero delle informazioni (IR)

Un modello di modello informativo (IR) può essere classificato nei seguenti tre modelli:

Modello IR classico

È il modello IR più semplice e facile da implementare. Questo modello si basa su una conoscenza matematica che è stata facilmente riconosciuta e compresa. Boolean, Vector e Probabilistic sono i tre modelli IR classici.

Modello IR non classico

È completamente opposto al modello IR classico. Questo tipo di modelli IR si basano su principi diversi da similarità, probabilità, operazioni booleane. Il modello di logica dell'informazione, il modello della teoria della situazione e i modelli di interazione sono gli esempi di modello IR non classico.

Modello IR alternativo

È il miglioramento del modello IR classico che fa uso di alcune tecniche specifiche di altri campi. Il modello di cluster, il modello fuzzy e i modelli di indicizzazione semantica latente (LSI) sono l'esempio del modello IR alternativo.

Caratteristiche di progettazione dei sistemi di recupero delle informazioni (IR)

Vediamo ora di conoscere le caratteristiche di progettazione dei sistemi IR:

Indice invertito

La struttura dati primaria della maggior parte dei sistemi IR è sotto forma di indice invertito. Possiamo definire un indice invertito come una struttura dati che elenca, per ogni parola, tutti i documenti che lo contengono e la frequenza delle occorrenze nel documento. Semplifica la ricerca di "risultati" di una parola di query.

Stop Word Elimination

Le parole di arresto sono quelle parole ad alta frequenza ritenute poco utili per la ricerca. Hanno meno pesi semantici. Tutti questi tipi di parole sono in un elenco chiamato elenco di interruzioni. Ad esempio, gli articoli "a", "an", "the" e preposizioni come "in", "of", "for", "at" ecc. Sono esempi di parole di arresto. La dimensione dell'indice invertito può essere notevolmente ridotta dall'elenco di stop. Secondo la legge di Zipf, una lista di stop che copre poche dozzine di parole riduce la dimensione dell'indice invertito di quasi la metà. D'altra parte, a volte l'eliminazione della parola chiave può causare l'eliminazione del termine utile per la ricerca. Ad esempio, se eliminiamo l'alfabeto "A" da "Vitamina A", non avrebbe alcun significato.

Stemming

Lo stemming, la forma semplificata dell'analisi morfologica, è il processo euristico di estrazione della forma base delle parole tagliando le estremità delle parole. Ad esempio, le parole ridere, ridere, ridere sarebbero derivate dalla radice della parola risata.

Nelle nostre sezioni successive, discuteremo di alcuni modelli IR importanti e utili.

Il modello booleano

È il modello di recupero delle informazioni (IR) più vecchio. Il modello si basa sulla teoria degli insiemi e sull'algebra booleana, dove i documenti sono insiemi di termini e le query sono espressioni booleane sui termini. Il modello booleano può essere definito come -

  • D- Un insieme di parole, cioè i termini di indicizzazione presenti in un documento. Ogni termine è presente (1) o assente (0).

  • Q - Un'espressione booleana, dove i termini sono i termini dell'indice e gli operatori sono prodotti logici - AND, somma logica - OR e differenza logica - NOT

  • F - Algebra booleana su set di termini e su set di documenti

    Se parliamo del feedback sulla pertinenza, nel modello IR booleano la previsione della pertinenza può essere definita come segue:

  • R - Si prevede che un documento sia rilevante per l'espressione di query se e solo se soddisfa l'espressione di query come -

((˅) ˄ ˄ ˜ ℎ)

Possiamo spiegare questo modello con un termine di query come una definizione univoca di un insieme di documenti.

Ad esempio, il termine della query “economic” definisce l'insieme di documenti indicizzati con il termine “economic”.

Ora, quale sarebbe il risultato dopo aver combinato i termini con l'operatore AND booleano? Definirà un set di documenti minore o uguale ai set di documenti di uno qualsiasi dei singoli termini. Ad esempio, la query con i termini“social” e “economic”produrrà la serie di documenti di documenti indicizzati con entrambi i termini. In altre parole, serie di documenti con l'intersezione di entrambe le serie.

Ora, quale sarebbe il risultato dopo aver combinato i termini con l'operatore OR booleano? Definirà un set di documenti più grande o uguale ai set di documenti di uno qualsiasi dei singoli termini. Ad esempio, la query con i termini“social” o “economic” produrrà la serie di documenti di documenti indicizzati con il termine “social” o “economic”. In altre parole, set di documenti con l'unione di entrambi i set.

Vantaggi della modalità booleana

I vantaggi del modello booleano sono i seguenti:

  • Il modello più semplice, che si basa su set.

  • Facile da capire e implementare.

  • Recupera solo corrispondenze esatte

  • Dà all'utente un senso di controllo sul sistema.

Svantaggi del modello booleano

Gli svantaggi del modello booleano sono i seguenti:

  • La funzione di similarità del modello è booleana. Quindi, non ci sarebbero partite parziali. Questo può essere fastidioso per gli utenti.

  • In questo modello, l'utilizzo dell'operatore booleano ha molta più influenza di una parola critica.

  • Il linguaggio di query è espressivo, ma è anche complicato.

  • Nessuna classifica per i documenti recuperati.

Modello di spazio vettoriale

A causa degli svantaggi di cui sopra del modello booleano, Gerard Salton e i suoi colleghi hanno suggerito un modello, che si basa sul criterio di somiglianza di Luhn. Il criterio di somiglianza formulato da Luhn afferma, "più due rappresentazioni concordano in dati elementi e la loro distribuzione, maggiore sarebbe la probabilità che rappresentino informazioni simili".

Considera i seguenti punti importanti per capire di più sul modello di spazio vettoriale:

  • Le rappresentazioni indice (documenti) e le query sono considerate come vettori incorporati in uno spazio euclideo ad alta dimensione.

  • La misura di somiglianza di un vettore di documento con un vettore di query è solitamente il coseno dell'angolo tra di loro.

Formula di misura della similarità del coseno

Il coseno è un prodotto a punti normalizzato, che può essere calcolato con l'aiuto della seguente formula:

$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = \ frac {\ sum_ {k = 1} ^ m d_ {k} \ :. q_ {k}} {\ sqrt {\ sum_ {k = 1} ^ m \ lgroup d_ {k} \ rgroup ^ 2} \:. \ Sqrt {\ sum_ {k = 1} ^ m} m \ lgroup q_ {k} \ rgroup ^ 2} $$

$$ Punteggio \ lgroup \ vec {d} \ vec {q} \ rgroup = 1 \: quando \: d = q $$

$$ Score \ lgroup \ vec {d} \ vec {q} \ rgroup = 0 \: quando \: d \: e \: q \: share \: no \: items $$

Rappresentazione dello spazio vettoriale con query e documento

La query e i documenti sono rappresentati da uno spazio vettoriale bidimensionale. I termini sonocar e insurance. Sono presenti una query e tre documenti nello spazio vettoriale.

Il documento in cima alla classifica in risposta ai termini auto e assicurazione sarà il documento d2 perché l'angolo tra q e d2è il più piccolo. La ragione di ciò è che sia le concept car che l'assicurazione sono salienti in d 2 e quindi hanno pesi elevati. Dall'altro lato,d1 e d3 menzionare anche entrambi i termini, ma in ogni caso uno di essi non è un termine di importanza centrale nel documento.

Ponderazione dei termini

Per ponderazione dei termini si intendono i pesi sui termini nello spazio vettoriale. Maggiore è il peso del termine, maggiore sarebbe l'impatto del termine sul coseno. Più pesi dovrebbero essere assegnati ai termini più importanti nel modello. Ora la domanda che sorge qui è come possiamo modellarlo.

Un modo per farlo è contare le parole in un documento come peso del termine. Tuttavia, pensi che sarebbe un metodo efficace?

Un altro metodo, che è più efficace, è quello di utilizzare term frequency (tfij), document frequency (dfi) e collection frequency (cfi).

Frequenza del termine (tf ij )

Può essere definito come il numero di occorrenze di wi in dj. L'informazione che viene catturata dalla frequenza del termine è quanto sia importante una parola all'interno di un dato documento o in altre parole possiamo dire che maggiore è la frequenza del termine, più quella parola è una buona descrizione del contenuto di quel documento.

Frequenza documento (df i )

Può essere definito come il numero totale di documenti nella raccolta in cui si verifica w i . È un indicatore di informatività. Le parole semanticamente focalizzate si verificheranno più volte nel documento a differenza delle parole semanticamente sfocate.

Frequenza di raccolta (cf i )

Può essere definito come il numero totale di occorrenze di wi nella collezione.

Matematicamente, $ df_ {i} \ leq cf_ {i} \: e \: \ sum_ {j} tf_ {ij} = cf_ {i} $

Forme di ponderazione della frequenza dei documenti

Vediamo ora di conoscere le diverse forme di ponderazione della frequenza dei documenti. I moduli sono descritti di seguito:

Fattore di frequenza del termine

Questo è anche classificato come il termine fattore di frequenza, il che significa che se un termine t appare spesso in un documento, quindi una query contenente tdovrebbe recuperare quel documento. Possiamo combinare le paroleterm frequency (tfij) e document frequency (dfi) in un unico peso come segue:

$$ weight \ left (i, j \ right) = \ begin {cases} (1 + log (tf_ {ij})) log \ frac {N} {df_ {i}} \: if \: tf_ {i, j} \: \ geq1 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \ : \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: if \: tf_ {i, j} \: = 0 \ end {case } $$

Qui N è il numero totale di documenti.

Frequenza documento inversa (idf)

Questa è un'altra forma di ponderazione della frequenza del documento e spesso chiamata ponderazione idf o ponderazione inversa della frequenza del documento. Il punto importante della ponderazione idf è che la scarsità del termine nella raccolta è una misura della sua importanza e l'importanza è inversamente proporzionale alla frequenza di occorrenza.

Matematicamente,

$$ idf_ {t} = log \ left (1+ \ frac {N} {n_ {t}} \ right) $$

$$ idf_ {t} = log \ left (\ frac {N-n_ {t}} {n_ {t}} \ right) $$

Qui,

N = documenti nella collezione

n t = documenti contenenti il ​​termine t

Miglioramento delle query degli utenti

L'obiettivo principale di qualsiasi sistema di recupero delle informazioni deve essere l'accuratezza - per produrre documenti pertinenti secondo le esigenze dell'utente. Tuttavia, la domanda che sorge qui è come possiamo migliorare l'output migliorando lo stile di formazione delle query dell'utente. Certamente, l'output di qualsiasi sistema IR dipende dalla query dell'utente e una query ben formattata produrrà risultati più accurati. L'utente può migliorare la sua query con l'aiuto direlevance feedback, un aspetto importante di qualsiasi modello IR.

Feedback sulla pertinenza

Il feedback sulla pertinenza prende l'output inizialmente restituito dalla query data. Questo output iniziale può essere utilizzato per raccogliere informazioni sull'utente e per sapere se tale output è rilevante per eseguire una nuova query o meno. I feedback possono essere classificati come segue:

Feedback esplicito

Può essere definito come il feedback che si ottiene dai valutatori di pertinenza. Questi valutatori indicheranno anche la rilevanza di un documento recuperato dalla query. Per migliorare le prestazioni di recupero delle query, le informazioni di feedback sulla pertinenza devono essere interpolate con la query originale.

I valutatori o altri utenti del sistema possono indicare esplicitamente la rilevanza utilizzando i seguenti sistemi di rilevanza:

  • Binary relevance system - Questo sistema di feedback sulla pertinenza indica che un documento è rilevante (1) o irrilevante (0) per una data query.

  • Graded relevance system- Il sistema di feedback sulla rilevanza graduata indica la rilevanza di un documento, per una data query, sulla base della valutazione mediante numeri, lettere o descrizioni. La descrizione può essere "non pertinente", "abbastanza pertinente", "molto pertinente" o "pertinente".

Feedback implicito

È il feedback che viene dedotto dal comportamento dell'utente. Il comportamento include la durata del tempo trascorso dall'utente nella visualizzazione di un documento, quale documento è selezionato per la visualizzazione e quale no, le azioni di navigazione e scorrimento della pagina, ecc. Uno dei migliori esempi di feedback implicito èdwell time, che è una misura del tempo che un utente trascorre a visualizzare la pagina collegata in un risultato di ricerca.

Pseudo feedback

È anche chiamato feedback cieco. Fornisce un metodo per l'analisi locale automatica. La parte manuale del feedback di pertinenza è automatizzata con l'aiuto di Feedback di pseudo rilevanza in modo che l'utente ottenga prestazioni di recupero migliorate senza un'interazione estesa. Il vantaggio principale di questo sistema di feedback è che non richiede valutatori come nel sistema di feedback di rilevanza esplicita.

Considera i seguenti passaggi per implementare questo feedback:

  • Step 1- Innanzitutto, il risultato restituito dalla query iniziale deve essere considerato come risultato pertinente. La gamma di risultati rilevanti deve essere tra i primi 10-50 risultati.

  • Step 2 - Ora, seleziona i primi 20-30 termini dai documenti usando ad esempio la frequenza del termine (tf) -peso della frequenza del documento inverso (idf).

  • Step 3- Aggiungi questi termini alla query e abbina i documenti restituiti. Quindi restituisci i documenti più rilevanti.