Gensim - Modellazione di argomenti
Questo capitolo tratta la modellazione degli argomenti rispetto a Gensim.
Per annotare i nostri dati e comprendere la struttura della frase, uno dei metodi migliori è utilizzare algoritmi linguistici computazionali. Senza dubbio, con l'aiuto di questi algoritmi linguistici computazionali possiamo comprendere alcuni dettagli più fini sui nostri dati ma,
Possiamo sapere che tipo di parole compaiono più spesso di altre nel nostro corpus?
Possiamo raggruppare i nostri dati?
Possiamo essere temi alla base dei nostri dati?
Saremmo in grado di ottenere tutto ciò con l'aiuto della modellazione degli argomenti. Quindi approfondiamo il concetto di modelli di argomento.
Cosa sono i modelli di argomento?
Un modello di argomento può essere definito come il modello probabilistico contenente informazioni sugli argomenti nel nostro testo. Ma qui sorgono due domande importanti che sono le seguenti:
Primo, what exactly a topic is?
L'argomento, come suggerisce il nome, sono le idee sottostanti oi temi rappresentati nel nostro testo. Per farti un esempio, il corpus contenentenewspaper articles avrebbe gli argomenti relativi a finance, weather, politics, sports, various states news e così via.
Secondo, what is the importance of topic models in text processing?
Come sappiamo, per identificare la somiglianza nel testo, possiamo fare il recupero delle informazioni e le tecniche di ricerca usando le parole. Ma, con l'aiuto dei modelli di argomento, ora possiamo cercare e organizzare i nostri file di testo utilizzando argomenti anziché parole.
In questo senso possiamo dire che gli argomenti sono la distribuzione probabilistica delle parole. Ecco perché, utilizzando modelli di argomenti, possiamo descrivere i nostri documenti come distribuzioni probabilistiche di argomenti.
Obiettivi dei modelli di argomento
Come discusso in precedenza, il focus della modellazione degli argomenti riguarda idee e temi sottostanti. I suoi obiettivi principali sono i seguenti:
I modelli di argomento possono essere utilizzati per il riepilogo del testo.
Possono essere utilizzati per organizzare i documenti. Ad esempio, possiamo utilizzare la modellazione degli argomenti per raggruppare gli articoli di notizie in una sezione organizzata / interconnessa come organizzare tutti gli articoli di notizie relativi acricket.
Possono migliorare i risultati della ricerca. Come? Per una query di ricerca, possiamo utilizzare modelli di argomento per rivelare il documento che contiene una combinazione di parole chiave diverse, ma sono circa la stessa idea.
Il concetto di raccomandazioni è molto utile per il marketing. Viene utilizzato da vari siti Web di shopping online, siti Web di notizie e molti altri. I modelli di argomento aiutano a dare consigli su cosa comprare, cosa leggere dopo, ecc. Lo fanno trovando materiali che hanno un argomento comune nell'elenco.
Topic Modeling Algoritmi in Gensim
Indubbiamente, Gensim è il toolkit di modellazione di argomenti più popolare. La sua disponibilità gratuita e l'essere in Python lo rendono più popolare. In questa sezione, discuteremo alcuni algoritmi di modellazione di argomenti più popolari. Qui, ci concentreremo sul "cosa" piuttosto che sul "come" perché Gensim li astrarre molto bene per noi.
Latent Dirichlet Allocation (LDA)
L'allocazione latente di Dirichlet (LDA) è la tecnica più comune e popolare attualmente in uso per la modellazione di argomenti. È quello che i ricercatori di Facebook hanno utilizzato nel loro articolo di ricerca pubblicato nel 2013. È stato proposto per la prima volta da David Blei, Andrew Ng e Michael Jordan nel 2003. Hanno proposto LDA nel loro articolo intitolato semplicementeLatent Dirichlet allocation.
Caratteristiche dell'LDA
Conosciamo meglio questa meravigliosa tecnica attraverso le sue caratteristiche -
Probabilistic topic modeling technique
LDA è una tecnica di modellazione di argomenti probabilistici. Come abbiamo discusso in precedenza, nella modellazione degli argomenti assumiamo che in qualsiasi raccolta di documenti correlati (potrebbero essere documenti accademici, articoli di giornale, post di Facebook, Tweet, e-mail e così via), ci sono alcune combinazioni di argomenti inclusi in ogni documento .
L'obiettivo principale della modellazione di argomenti probabilistici è scoprire la struttura di argomenti nascosti per la raccolta di documenti correlati. Le seguenti tre cose sono generalmente incluse in una struttura di argomenti:
Topics
Distribuzione statistica degli argomenti tra i documenti
Parole in un documento che comprende l'argomento
Work in an unsupervised way
LDA funziona in modo non supervisionato. È perché LDA utilizza le probabilità condizionali per scoprire la struttura dell'argomento nascosto. Si presume che gli argomenti siano distribuiti in modo non uniforme nella raccolta di documenti correlati.
Very easy to create it in Gensim
In Gensim, è molto facile creare il modello LDA. abbiamo solo bisogno di specificare il corpus, la mappatura del dizionario e il numero di argomenti che vorremmo utilizzare nel nostro modello.
Model=models.LdaModel(corpus, id2word=dictionary, num_topics=100)
May face computationally intractable problem
Calcolare la probabilità di ogni possibile struttura di argomenti è una sfida computazionale affrontata da LDA. È impegnativo perché deve calcolare la probabilità di ogni parola osservata in ogni possibile struttura di argomenti. Se abbiamo un gran numero di argomenti e parole, LDA potrebbe dover affrontare problemi computazionalmente intrattabili.
Indicizzazione semantica latente (LSI)
Gli algoritmi di modellazione degli argomenti implementati per la prima volta in Gensim con Latent Dirichlet Allocation (LDA) è Latent Semantic Indexing (LSI). È anche chiamatoLatent Semantic Analysis (LSA).
È stato brevettato nel 1988 da Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landaur, Karen Lochbaum e Lynn Streeter. In questa sezione configureremo il nostro modello LSI. Può essere fatto nello stesso modo di impostare il modello LDA. dobbiamo importare il modello LSI dagensim.models.
Ruolo di LSI
In realtà, LSI è una tecnica PNL, soprattutto nella semantica distribuzionale. Analizza la relazione tra un insieme di documenti e i termini che questi documenti contengono. Se parliamo del suo funzionamento, allora costruisce una matrice che contiene i conteggi delle parole per documento da una grande porzione di testo.
Una volta costruito, per ridurre il numero di righe, il modello LSI utilizza una tecnica matematica chiamata SVD (singular value decomposition). Oltre a ridurre il numero di righe, preserva anche la struttura di somiglianza tra le colonne. Nella matrice, le righe rappresentano parole uniche e le colonne rappresentano ogni documento. Funziona sulla base di ipotesi distributive, cioè presuppone che le parole che hanno un significato simile si trovino nello stesso tipo di testo.
Model=models.LsiModel(corpus, id2word=dictionary, num_topics=100)
Processo gerarchico di Dirichlet (HDP)
I modelli tematici come LDA e LSI aiutano a riassumere e organizzare grandi archivi di testi che non è possibile analizzare a mano. Oltre a LDA e LSI, un altro potente modello di argomento in Gensim è HDP (Hierarchical Dirichlet Process). È fondamentalmente un modello di appartenenza mista per l'analisi senza supervisione di dati raggruppati. A differenza di LDA (la sua controparte finita), HDP deduce il numero di argomenti dai dati.
Model=models.HdpModel(corpus, id2word=dictionary