Scrapy - Strumenti della riga di comando

Descrizione

Lo strumento della riga di comando Scrapy viene utilizzato per controllare Scrapy, che viene spesso denominato 'Scrapy tool'. Include i comandi per vari oggetti con un gruppo di argomenti e opzioni.

Impostazioni di configurazione

Scrapy troverà le impostazioni di configurazione nel file scrapy.cfgfile. Di seguito sono riportate alcune posizioni:

  • C: \ scrapy (cartella del progetto) \ scrapy.cfg nel sistema

  • ~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) e ~ / .scrapy.cfg ($ HOME) per le impostazioni globali

  • Puoi trovare scrapy.cfg all'interno della radice del progetto.

Scrapy può anche essere configurato utilizzando le seguenti variabili d'ambiente:

  • SCRAPY_SETTINGS_MODULE
  • SCRAPY_PROJECT
  • SCRAPY_PYTHON_SHELL

Progetto Default Structure Scrapy

La seguente struttura mostra la struttura dei file predefinita del progetto Scrapy.

scrapy.cfg                - Deploy the configuration file
project_name/             - Name of the project
   _init_.py
   items.py               - It is project's items file
   pipelines.py           - It is project's pipelines file
   settings.py            - It is project's settings file
   spiders                - It is the spiders directory
      _init_.py
      spider_name.py
      . . .

Il scrapy.cfgfile è una directory principale del progetto, che include il nome del progetto con le impostazioni del progetto. Ad esempio:

[settings] 
default = [name of the project].settings  

[deploy] 
#url = http://localhost:6800/ 
project = [name of the project]

Utilizzo dello strumento Scrapy

Lo strumento Scrapy fornisce alcuni comandi di utilizzo e disponibili come segue:

Scrapy X.Y  - no active project 
Usage: 
   scrapy  [options] [arguments] 
Available commands: 
   crawl      It puts spider (handle the URL) to work for crawling data 
   fetch      It fetches the response from the given URL

Creazione di un progetto

È possibile utilizzare il seguente comando per creare il progetto in Scrapy:

scrapy startproject project_name

Questo creerà il progetto chiamato project_namedirectory. Quindi, vai al progetto appena creato, usando il seguente comando:

cd  project_name

Controllo dei progetti

Puoi controllare il progetto e gestirli utilizzando lo strumento Scrapy e anche creare il nuovo ragno, utilizzando il seguente comando:

scrapy genspider mydomain mydomain.com

I comandi come scansione, ecc. Devono essere utilizzati all'interno del progetto Scrapy. Verrai a sapere quali comandi devono essere eseguiti all'interno del progetto Scrapy nella prossima sezione.

Scrapy contiene alcuni comandi incorporati che possono essere usati per il tuo progetto. Per visualizzare l'elenco dei comandi disponibili, utilizzare il seguente comando:

scrapy -h

Quando esegui il seguente comando, Scrapy mostrerà l'elenco dei comandi disponibili come elencato:

  • fetch - Recupera l'URL utilizzando il downloader Scrapy.

  • runspider - Viene utilizzato per eseguire spider autonomo senza creare un progetto.

  • settings - Specifica il valore di impostazione del progetto.

  • shell - È un modulo di scraping interattivo per l'URL specificato.

  • startproject - Crea un nuovo progetto Scrapy.

  • version - Visualizza la versione Scrapy.

  • view - Recupera l'URL utilizzando Scrapy downloader e mostra i contenuti in un browser.

Puoi avere alcuni comandi relativi al progetto come elencato -

  • crawl - Viene utilizzato per eseguire la scansione dei dati utilizzando lo spider.

  • check - Controlla gli elementi restituiti dal comando sottoposto a scansione.

  • list - Visualizza l'elenco degli spider disponibili presenti nel progetto.

  • edit - Puoi modificare gli spider usando l'editor.

  • parse - Analizza l'URL fornito con lo spider.

  • bench - Viene utilizzato per eseguire test di benchmark rapidi (il benchmark indica il numero di pagine che possono essere scansionate al minuto da Scrapy).

Comandi di progetto personalizzati

Puoi creare un comando di progetto personalizzato con COMMANDS_MODULEimpostazione nel progetto Scrapy. Include una stringa vuota predefinita nell'impostazione. Puoi aggiungere il seguente comando personalizzato:

COMMANDS_MODULE = 'mycmd.commands'

I comandi Scrapy possono essere aggiunti utilizzando la sezione scrapy.commands nel file setup.py mostrato come segue:

from setuptools import setup, find_packages  

setup(name = 'scrapy-module_demo', 
   entry_points = { 
      'scrapy.commands': [ 
         'cmd_demo = my_module.commands:CmdDemo', 
      ], 
   }, 
)

Il codice sopra aggiunge cmd_demo comando in setup.py file.