Gensim - Creazione del modello di argomento LDA

Questo capitolo ti aiuterà a imparare come creare un modello di argomenti di allocazione latente di Dirichlet (LDA) in Gensim.

Estrazione automatica di informazioni su argomenti da grandi volumi di testi in una delle principali applicazioni della PNL (elaborazione del linguaggio naturale). Un grande volume di testi potrebbe essere feed di recensioni di hotel, tweet, post di Facebook, feed di qualsiasi altro canale di social media, recensioni di film, notizie, feedback degli utenti, e-mail ecc.

In questa era digitale, sapere di cosa parlano le persone / clienti, capire le loro opinioni e i loro problemi, può essere molto prezioso per le imprese, le campagne politiche e gli amministratori. Ma è possibile leggere manualmente volumi di testo così grandi e quindi estrarre le informazioni dagli argomenti?

No non lo è. Richiede un algoritmo automatico in grado di leggere questi grandi volumi di documenti di testo ed estrarre automaticamente le informazioni / gli argomenti discussi da esso richiesti.

Ruolo di LDA

L'approccio di LDA alla modellazione degli argomenti consiste nel classificare il testo in un documento in un argomento particolare. Modellato come distribuzioni di Dirichlet, LDA costruisce -

  • Un argomento per modello di documento e
  • Parole per modello di argomento

Dopo aver fornito l'algoritmo del modello di argomento LDA, al fine di ottenere una buona composizione della distribuzione di parole chiave argomento, riorganizza:

  • Le distribuzioni degli argomenti all'interno del documento e
  • Distribuzione delle parole chiave all'interno degli argomenti

Durante l'elaborazione, alcune delle ipotesi formulate da LDA sono:

  • Ogni documento è modellato come distribuzioni multi-nominali di argomenti.
  • Ogni argomento è modellato come distribuzioni multi-nominali di parole.
  • Dovremmo scegliere il corpus di dati corretto perché LDA presume che ogni porzione di testo contenga le parole correlate.
  • LDA presume inoltre che i documenti siano prodotti da una combinazione di argomenti.

Implementazione con Gensim

Qui, useremo LDA (Latent Dirichlet Allocation) per estrarre gli argomenti discussi naturalmente dal set di dati.

Caricamento del set di dati

Il set di dati che useremo è il set di dati di ’20 Newsgroups’avere migliaia di articoli di notizie da varie sezioni di un rapporto di notizie. È disponibile sottoSklearnset di dati. Possiamo facilmente scaricare con l'aiuto del seguente script Python -

from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')

Diamo un'occhiata ad alcune delle notizie di esempio con l'aiuto del seguente script:

newsgroups_train.data[:4]
["From: [email protected] (where's my thing)\nSubject: 
WHAT car is this!?\nNntp-Posting-Host: rac3.wam.umd.edu\nOrganization: 
University of Maryland, College Park\nLines: 
15\n\n I was wondering if anyone out there could enlighten me on this car 
I saw\nthe other day. It was a 2-door sports car, looked to be from the 
late 60s/\nearly 70s. It was called a Bricklin. The doors were really small. 
In addition,\nthe front bumper was separate from the rest of the body. 
This is \nall I know. If anyone can tellme a model name, 
engine specs, years\nof production, where this car is made, history, or 
whatever info you\nhave on this funky looking car, please e-mail.\n\nThanks,
\n- IL\n ---- brought to you by your neighborhood Lerxst ----\n\n\n\n\n",

"From: [email protected] (Guy Kuo)\nSubject: SI Clock Poll - Final 
Call\nSummary: Final call for SI clock reports\nKeywords: 
SI,acceleration,clock,upgrade\nArticle-I.D.: shelley.1qvfo9INNc3s\nOrganization: 
University of Washington\nLines: 11\nNNTP-Posting-Host: carson.u.washington.edu\n\nA 
fair number of brave souls who upgraded their SI clock oscillator have\nshared their 
experiences for this poll. Please send a brief message detailing\nyour experiences with 
the procedure. Top speed attained, CPU rated speed,\nadd on cards and adapters, heat 
sinks, hour of usage per day, floppy disk\nfunctionality with 800 and 1.4 m floppies 
are especially requested.\n\nI will be summarizing in the next two days, so please add 
to the network\nknowledge base if you have done the clock upgrade and haven't answered 
this\npoll. Thanks.\n\nGuy Kuo <;[email protected]>\n",

'From: [email protected] (Thomas E Willis)\nSubject: 
PB questions...\nOrganization: Purdue University Engineering 
Computer Network\nDistribution: usa\nLines: 36\n\nwell folks, 
my mac plus finally gave up the ghost this weekend after\nstarting 
life as a 512k way back in 1985. sooo, i\'m in the market for 
a\nnew machine a bit sooner than i intended to be...\n\ni\'m looking 
into picking up a powerbook 160 or maybe 180 and have a bunch\nof 
questions that (hopefully) somebody can answer:\n\n* does anybody 
know any dirt on when the next round of powerbook\nintroductions 
are expected? i\'d heard the 185c was supposed to make an\nappearence 
"this summer" but haven\'t heard anymore on it - and since i\ndon\'t 
have access to macleak, i was wondering if anybody out there had\nmore 
info...\n\n* has anybody heard rumors about price drops to the powerbook 
line like the\nones the duo\'s just went through recently?\n\n* what\'s 
the impression of the display on the 180? i could probably swing\na 180 
if i got the 80Mb disk rather than the 120, but i don\'t really have\na 
feel for how much "better" the display is (yea, it looks great in the\nstore, 
but is that all "wow" or is it really that good?). could i solicit\nsome 
opinions of people who use the 160 and 180 day-to-day on if its
worth\ntaking the disk size and money hit to get the active display? 
(i realize\nthis is a real subjective question, but i\'ve only played around 
with the\nmachines in a computer store breifly and figured the opinions 
of somebody\nwho actually uses the machine daily might prove helpful).\n\n* 
how well does hellcats perform? ;)\n\nthanks a bunch in advance for any info - 
if you could email, i\'ll post a\nsummary (news reading time is at a premium 
with finals just around the\ncorner... :
( )\n--\nTom Willis \\ [email protected] \\ Purdue Electrical 
Engineering\n---------------------------------------------------------------------------\
n"Convictions are more dangerous enemies of truth than lies." - F. W.\nNietzsche\n',

'From: [email protected] (Joe Green)\nSubject: Re: Weitek P9000 ?\nOrganization: 
Harris Computer Systems Division\nLines: 14\nDistribution: world\nNNTP-Posting-Host: 
amber.ssd.csd.harris.com\nX-Newsreader: TIN [version 1.1 PL9]\n\nRobert 
J.C. Kyanko ([email protected]) wrote:\n >[email protected] writes in article 
<[email protected] >:\n> > Anyone know about the 
Weitek P9000 graphics chip?\n > As far as the low-level stuff goes, it looks 
pretty nice. It\'s got this\n> quadrilateral fill command that requires just 
the four points.\n\nDo you have Weitek\'s address/phone number? I\'d like to get 
some information\nabout this chip.\n\n--\nJoe Green\t\t\t\tHarris 
Corporation\[email protected]\t\t\tComputer Systems Division\n"The only 
thing that really scares me is a person with no sense of humor.
"\n\t\t\t\t\t\t-- Jonathan Winters\n']

Prerequisito

Abbiamo bisogno di Stopwords da NLTK e modello inglese da Scapy. Entrambi possono essere scaricati come segue:

import nltk;
nltk.download('stopwords')
nlp = spacy.load('en_core_web_md', disable=['parser', 'ner'])

Importazione dei pacchetti necessari

Per costruire il modello LDA dobbiamo importare il seguente pacchetto necessario:

import re
import numpy as np
import pandas as pd
from pprint import pprint
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel
import spacy
import pyLDAvis
import pyLDAvis.gensim
import matplotlib.pyplot as plt

Preparazione di parole non significative

Ora, dobbiamo importare le Stopword e usarle -

from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stop_words.extend(['from', 'subject', 're', 'edu', 'use'])

Pulisci il testo

Ora, con l'aiuto di Gensim simple_preprocess()abbiamo bisogno di tokenizzare ogni frase in un elenco di parole. Dovremmo anche rimuovere i segni di punteggiatura e i caratteri non necessari. Per fare ciò, creeremo una funzione denominatasent_to_words() -

def sent_to_words(sentences):
   for sentence in sentences:
      yield(gensim.utils.simple_preprocess(str(sentence), deacc=True))
data_words = list(sent_to_words(data))

Costruire modelli bigram e trigram

Come sappiamo, i bigram sono due parole che ricorrono frequentemente insieme nel documento e il trigramma sono tre parole che ricorrono frequentemente insieme nel documento. Con l'aiuto di Gensim'sPhrases modello, possiamo farlo -

bigram = gensim.models.Phrases(data_words, min_count=5, threshold=100)
trigram = gensim.models.Phrases(bigram[data_words], threshold=100)
bigram_mod = gensim.models.phrases.Phraser(bigram)
trigram_mod = gensim.models.phrases.Phraser(trigram)

Filtra le parole non significative

Successivamente, dobbiamo filtrare le Stopwords. Insieme a ciò, creeremo anche funzioni per creare bigram, trigram e per lemmatizzazione -

def remove_stopwords(texts):
   return [[word for word in simple_preprocess(str(doc))
if word not in stop_words] for doc in texts]
def make_bigrams(texts):
   return [bigram_mod[doc] for doc in texts]
def make_trigrams(texts):
   return [trigram_mod[bigram_mod[doc]] for doc in texts]
def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']):
   texts_out = []
   for sent in texts:
     doc = nlp(" ".join(sent))
     texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
   return texts_out

Dizionario e corpus per il modello di argomento

Ora dobbiamo creare il dizionario e il corpus. Lo abbiamo fatto anche negli esempi precedenti -

id2word = corpora.Dictionary(data_lemmatized)
texts = data_lemmatized
corpus = [id2word.doc2bow(text) for text in texts]

Creazione di un modello di argomento LDA

Abbiamo già implementato tutto ciò che è necessario per addestrare il modello LDA. Ora è il momento di costruire il modello di argomento LDA. Per il nostro esempio di implementazione, può essere fatto con l'aiuto della seguente riga di codici:

lda_model = gensim.models.ldamodel.LdaModel(
   corpus=corpus, id2word=id2word, num_topics=20, random_state=100, 
   update_every=1, chunksize=100, passes=10, alpha='auto', per_word_topics=True
)

Esempio di implementazione

Vediamo l'esempio di implementazione completo per costruire il modello di argomento LDA -

import re
import numpy as np
import pandas as pd
from pprint import pprint
import gensim
import gensim.corpora as corpora
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel
import spacy
import pyLDAvis
import pyLDAvis.gensim
import matplotlib.pyplot as plt
from nltk.corpus import stopwords
stop_words = stopwords.words('english')
stop_words.extend(['from', 'subject', 're', 'edu', 'use'])
from sklearn.datasets import fetch_20newsgroups
newsgroups_train = fetch_20newsgroups(subset='train')
data = newsgroups_train.data
data = [re.sub('\S*@\S*\s?', '', sent) for sent in data]
data = [re.sub('\s+', ' ', sent) for sent in data]
data = [re.sub("\'", "", sent) for sent in data]
print(data_words[:4]) #it will print the data after prepared for stopwords
bigram = gensim.models.Phrases(data_words, min_count=5, threshold=100)
trigram = gensim.models.Phrases(bigram[data_words], threshold=100)
bigram_mod = gensim.models.phrases.Phraser(bigram)
trigram_mod = gensim.models.phrases.Phraser(trigram)
def remove_stopwords(texts):
   return [[word for word in simple_preprocess(str(doc)) 
   if word not in stop_words] for doc in texts]
def make_bigrams(texts):
   return [bigram_mod[doc] for doc in texts]
def make_trigrams(texts):
   [trigram_mod[bigram_mod[doc]] for doc in texts]
def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV']):
   texts_out = []
   for sent in texts:
      doc = nlp(" ".join(sent))
      texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
   return texts_out
data_words_nostops = remove_stopwords(data_words)
data_words_bigrams = make_bigrams(data_words_nostops)
nlp = spacy.load('en_core_web_md', disable=['parser', 'ner'])
data_lemmatized = lemmatization(data_words_bigrams, allowed_postags=[
   'NOUN', 'ADJ', 'VERB', 'ADV'
])
print(data_lemmatized[:4]) #it will print the lemmatized data.
id2word = corpora.Dictionary(data_lemmatized)
texts = data_lemmatized
corpus = [id2word.doc2bow(text) for text in texts]
print(corpus[:4]) #it will print the corpus we created above.
[[(id2word[id], freq) for id, freq in cp] for cp in corpus[:4]] 
#it will print the words with their frequencies.
lda_model = gensim.models.ldamodel.LdaModel(
   corpus=corpus, id2word=id2word, num_topics=20, random_state=100, 
   update_every=1, chunksize=100, passes=10, alpha='auto', per_word_topics=True
)

Possiamo ora utilizzare il modello LDA creato sopra per ottenere gli argomenti, per calcolare la perplessità del modello.