Data mining - Data mining di testo

I database di testo sono costituiti da un'enorme raccolta di documenti. Raccolgono queste informazioni da diverse fonti come articoli di notizie, libri, biblioteche digitali, messaggi di posta elettronica, pagine web, ecc. A causa dell'aumento della quantità di informazioni, i database di testo stanno crescendo rapidamente. In molti database di testo, i dati sono semi-strutturati.

Ad esempio, un documento può contenere alcuni campi strutturati, come titolo, autore, data_di pubblicazione, ecc. Ma insieme ai dati della struttura, il documento contiene anche componenti di testo non strutturati, come abstract e contenuti. Senza sapere cosa potrebbe esserci nei documenti, è difficile formulare query efficaci per analizzare ed estrarre informazioni utili dai dati. Gli utenti richiedono strumenti per confrontare i documenti e classificarne l'importanza e la pertinenza. Pertanto, il text mining è diventato popolare e un tema essenziale nel data mining.

Recupero delle informazioni

Il recupero delle informazioni si occupa del recupero delle informazioni da un gran numero di documenti di testo. Alcuni dei sistemi di database di solito non sono presenti nei sistemi di recupero delle informazioni perché entrambi gestiscono diversi tipi di dati. Esempi di sistemi di recupero delle informazioni includono:

Sistema di catalogo della biblioteca online
Sistemi di gestione dei documenti online
Sistemi di ricerca web ecc.

Note- Il problema principale in un sistema di recupero delle informazioni è individuare i documenti rilevanti in una raccolta di documenti in base alla query di un utente. Questo tipo di query dell'utente è costituito da alcune parole chiave che descrivono un bisogno di informazioni.

In tali problemi di ricerca, l'utente prende l'iniziativa di estrarre le informazioni pertinenti da una raccolta. Ciò è appropriato quando l'utente ha bisogno di informazioni ad hoc, cioè una necessità a breve termine. Ma se l'utente ha una necessità di informazioni a lungo termine, il sistema di recupero può anche prendere un'iniziativa per inviare all'utente qualsiasi elemento informativo appena arrivato.

Questo tipo di accesso alle informazioni è chiamato Filtro delle informazioni. E i sistemi corrispondenti sono noti come sistemi di filtraggio o sistemi di raccomandazione.

Misure di base per il recupero del testo

Dobbiamo verificare l'accuratezza di un sistema quando recupera un numero di documenti sulla base dell'input dell'utente. Lascia che l'insieme di documenti rilevanti per una query sia indicato come {Rilevante} e l'insieme di documenti recuperati come {Recuperato}. L'insieme di documenti che sono rilevanti e recuperati può essere indicato come {Rilevante} ∩ {Recuperato}. Questo può essere mostrato sotto forma di un diagramma di Venn come segue:

Ci sono tre misure fondamentali per valutare la qualità del recupero del testo:

Precision
Recall
F-score

Precisione

La precisione è la percentuale di documenti recuperati che sono effettivamente rilevanti per la query. La precisione può essere definita come:

Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

Richiamare

Il richiamo è la percentuale di documenti rilevanti per la query e che sono stati effettivamente recuperati. Il richiamo è definito come -

Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

Punteggio F.

Il punteggio F è il compromesso comunemente usato. Il sistema di recupero delle informazioni spesso ha bisogno di un compromesso con la precisione o viceversa. Il punteggio F è definito come media armonica di richiamo o precisione come segue:

F-score = recall x precision / (recall + precision) / 2