Gensim - Creazione di un dizionario

Nell'ultimo capitolo in cui abbiamo discusso di vettore e modello, hai avuto un'idea del dizionario. Qui, discuteremoDictionary oggetto un po 'più in dettaglio.

Cos'è Dictionary?

Prima di approfondire il concetto di dizionario, comprendiamo alcuni semplici concetti di PNL:

  • Token - Un token significa una "parola".

  • Document - Un documento fa riferimento a una frase o un paragrafo.

  • Corpus - Si riferisce a una raccolta di documenti come un sacco di parole (BoW).

Per tutti i documenti, un corpus contiene sempre l'id del token di ogni parola insieme al conteggio della frequenza nel documento.

Passiamo al concetto di dizionario in Gensim. Per lavorare su documenti di testo, Gensim richiede anche che le parole, cioè i token, siano convertite nei loro ID univoci. Per raggiungere questo obiettivo, ci dà la possibilità diDictionary object, che mappa ogni parola al loro ID intero univoco. Lo fa convertendo il testo di input nell'elenco di parole e quindi passandolo al filecorpora.Dictionary() oggetto.

Bisogno di dizionario

Ora sorge la domanda che qual è effettivamente la necessità di un oggetto dizionario e dove può essere utilizzato? In Gensim, l'oggetto dizionario viene utilizzato per creare un corpus bag of words (BoW) che viene ulteriormente utilizzato come input per la modellazione di argomenti e altri modelli.

Forme di input di testo

Esistono tre diverse forme di testo di input, che possiamo fornire a Gensim:

  • Poiché le frasi memorizzate nell'oggetto elenco nativo di Python (noto come str in Python 3)

  • Come un unico file di testo (può essere piccolo o grande)

  • Più file di testo

Creazione di un dizionario utilizzando Gensim

Come discusso, in Gensim, il dizionario contiene la mappatura di tutte le parole, ovvero i token, al loro ID intero univoco. Possiamo creare un dizionario da un elenco di frasi, da uno o più file di testo (file di testo contenenti più righe di testo). Quindi, per prima cosa iniziamo creando un dizionario usando l'elenco di frasi.

Da un elenco di frasi

Nell'esempio seguente creeremo un dizionario da un elenco di frasi. Quando abbiamo un elenco di frasi o puoi pronunciare più frasi, dobbiamo convertire ogni frase in un elenco di parole e le comprensioni è uno dei modi molto comuni per farlo.

Esempio di implementazione

Innanzitutto, importa i pacchetti richiesti e necessari come segue:

import gensim
from gensim import corpora
from pprint import pprint

Quindi, crea l'elenco di comprensione dall'elenco di frasi / documento per usarlo creando il dizionario -

doc = [
   "CNTK formerly known as Computational Network Toolkit",
   "is a free easy-to-use open-source commercial-grade toolkit",
   "that enable us to train deep learning algorithms to learn like the human brain."
]

Successivamente, dobbiamo dividere le frasi in parole. Si chiama tokenizzazione.

text_tokens = [[text for text in doc.split()] for doc in doc]

Ora, con l'aiuto del seguente script, possiamo creare il dizionario -

dict_LoS = corpora.Dictionary(text_tokens)

Ora otteniamo qualche informazione in più come il numero di gettoni nel dizionario -

print(dict_LoS)

Produzione

Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)

Possiamo anche vedere la parola per la mappatura di interi univoci come segue:

print(dict_LoS.token2id)

Produzione

{
   'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4, 
   'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9,
   'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14,
   'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19, 'learning': 20,
   'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}

Esempio di implementazione completo

import gensim
from gensim import corpora
from pprint import pprint
doc = [
   "CNTK formerly known as Computational Network Toolkit",
   "is a free easy-to-use open-source commercial-grade toolkit",
   "that enable us to train deep learning algorithms to learn like the human brain."
]
text_tokens = [[text for text in doc.split()] for doc in doc]
dict_LoS = corpora.Dictionary(text_tokens)
print(dict_LoS.token2id)

Da file di testo singolo

Nell'esempio seguente creeremo il dizionario da un singolo file di testo. In modo simile, possiamo anche creare un dizionario da più di un file di testo (cioè directory di file).

Per questo, abbiamo salvato il documento, utilizzato nell'esempio precedente, nel file di testo denominato doc.txt. Gensim leggerà il file riga per riga ed elaborerà una riga alla volta utilizzandosimple_preprocess. In questo modo, non è necessario caricare il file completo in memoria tutto in una volta.

Esempio di implementazione

Innanzitutto, importa i pacchetti richiesti e necessari come segue:

import gensim
from gensim import corpora
from pprint import pprint
from gensim.utils import simple_preprocess
from smart_open import smart_open
import os

La prossima riga di codici creerà il dizionario gensim utilizzando il singolo file di testo denominato doc.txt -

dict_STF = corpora.Dictionary(
   simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’)
)

Ora otteniamo qualche informazione in più come il numero di gettoni nel dizionario -

print(dict_STF)

Produzione

Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)

Possiamo anche vedere la parola per la mappatura di interi univoci come segue:

print(dict_STF.token2id)

Produzione

{
   'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4, 
   'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9, 
   'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14, 
   'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19, 
   'learning': 20, 'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}

Esempio di implementazione completo

import gensim
from gensim import corpora
from pprint import pprint
from gensim.utils import simple_preprocess
from smart_open import smart_open
import os
dict_STF = corpora.Dictionary(
   simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’)
)
dict_STF = corpora.Dictionary(text_tokens)
print(dict_STF.token2id)

Da più file di testo

Ora creiamo un dizionario da più file, cioè più di un file di testo salvato nella stessa directory. Per questo esempio, abbiamo creato tre diversi file di testo, vale a direfirst.txt, second.txt e third.txtcontenente le tre righe dal file di testo (doc.txt), abbiamo usato per l'esempio precedente. Tutti questi tre file di testo vengono salvati in una directory denominataABC.

Esempio di implementazione

Per implementare ciò, dobbiamo definire una classe con un metodo che possa iterare attraverso tutti e tre i file di testo (Primo, Secondo e Terzo.txt) nella directory (ABC) e produrre l'elenco elaborato di token di parole.

Definiamo la classe denominata Read_files avere un metodo chiamato __iteration__ () come segue -

class Read_files(object):
   def __init__(self, directoryname):
      elf.directoryname = directoryname
   def __iter__(self):
      for fname in os.listdir(self.directoryname):
         for line in open(os.path.join(self.directoryname, fname), encoding='latin'):
   yield simple_preprocess(line)

Successivamente, dobbiamo fornire il percorso della directory come segue:

path = "ABC"

#provide the path as per your computer system where you saved the directory.

I passaggi successivi sono simili a quelli che abbiamo fatto negli esempi precedenti. La prossima riga di codici creerà la directory Gensim utilizzando la directory con tre file di testo:

dict_MUL = corpora.Dictionary(Read_files(path))

Produzione

Dictionary(27 unique tokens: ['CNTK', 'Computational', 'Network', 'Toolkit', 'as']...)

Ora possiamo anche vedere la parola per la mappatura di interi univoci come segue:

print(dict_MUL.token2id)

Produzione

{
   'CNTK': 0, 'Computational': 1, 'Network': 2, 'Toolkit': 3, 'as': 4, 
   'formerly': 5, 'known': 6, 'a': 7, 'commercial-grade': 8, 'easy-to-use': 9, 
   'free': 10, 'is': 11, 'open-source': 12, 'toolkit': 13, 'algorithms': 14, 
   'brain.': 15, 'deep': 16, 'enable': 17, 'human': 18, 'learn': 19, 
   'learning': 20, 'like': 21, 'that': 22, 'the': 23, 'to': 24, 'train': 25, 'us': 26
}

Salvataggio e caricamento di un dizionario Gensim

Gensim sostiene il proprio nativo save() metodo per salvare il dizionario sul disco e load() metodo per caricare nuovamente il dizionario dal disco.

Ad esempio, possiamo salvare il dizionario con l'aiuto del seguente script:

Gensim.corpora.dictionary.save(filename)

#provide the path where you want to save the dictionary.

Allo stesso modo, possiamo caricare il dizionario salvato usando il metodo load (). Lo script seguente può farlo -

Gensim.corpora.dictionary.load(filename)

#provide the path where you have saved the dictionary.