Scrapy - Strumenti della riga di comando
Descrizione
Lo strumento della riga di comando Scrapy viene utilizzato per controllare Scrapy, che viene spesso denominato 'Scrapy tool'. Include i comandi per vari oggetti con un gruppo di argomenti e opzioni.
Impostazioni di configurazione
Scrapy troverà le impostazioni di configurazione nel file scrapy.cfgfile. Di seguito sono riportate alcune posizioni:
C: \ scrapy (cartella del progetto) \ scrapy.cfg nel sistema
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) e ~ / .scrapy.cfg ($ HOME) per le impostazioni globali
Puoi trovare scrapy.cfg all'interno della radice del progetto.
Scrapy può anche essere configurato utilizzando le seguenti variabili d'ambiente:
- SCRAPY_SETTINGS_MODULE
- SCRAPY_PROJECT
- SCRAPY_PYTHON_SHELL
Progetto Default Structure Scrapy
La seguente struttura mostra la struttura dei file predefinita del progetto Scrapy.
scrapy.cfg - Deploy the configuration file
project_name/ - Name of the project
_init_.py
items.py - It is project's items file
pipelines.py - It is project's pipelines file
settings.py - It is project's settings file
spiders - It is the spiders directory
_init_.py
spider_name.py
. . .
Il scrapy.cfgfile è una directory principale del progetto, che include il nome del progetto con le impostazioni del progetto. Ad esempio:
[settings]
default = [name of the project].settings
[deploy]
#url = http://localhost:6800/
project = [name of the project]
Utilizzo dello strumento Scrapy
Lo strumento Scrapy fornisce alcuni comandi di utilizzo e disponibili come segue:
Scrapy X.Y - no active project
Usage:
scrapy [options] [arguments]
Available commands:
crawl It puts spider (handle the URL) to work for crawling data
fetch It fetches the response from the given URL
Creazione di un progetto
È possibile utilizzare il seguente comando per creare il progetto in Scrapy:
scrapy startproject project_name
Questo creerà il progetto chiamato project_namedirectory. Quindi, vai al progetto appena creato, usando il seguente comando:
cd project_name
Controllo dei progetti
Puoi controllare il progetto e gestirli utilizzando lo strumento Scrapy e anche creare il nuovo ragno, utilizzando il seguente comando:
scrapy genspider mydomain mydomain.com
I comandi come scansione, ecc. Devono essere utilizzati all'interno del progetto Scrapy. Verrai a sapere quali comandi devono essere eseguiti all'interno del progetto Scrapy nella prossima sezione.
Scrapy contiene alcuni comandi incorporati che possono essere usati per il tuo progetto. Per visualizzare l'elenco dei comandi disponibili, utilizzare il seguente comando:
scrapy -h
Quando esegui il seguente comando, Scrapy mostrerà l'elenco dei comandi disponibili come elencato:
fetch - Recupera l'URL utilizzando il downloader Scrapy.
runspider - Viene utilizzato per eseguire spider autonomo senza creare un progetto.
settings - Specifica il valore di impostazione del progetto.
shell - È un modulo di scraping interattivo per l'URL specificato.
startproject - Crea un nuovo progetto Scrapy.
version - Visualizza la versione Scrapy.
view - Recupera l'URL utilizzando Scrapy downloader e mostra i contenuti in un browser.
Puoi avere alcuni comandi relativi al progetto come elencato -
crawl - Viene utilizzato per eseguire la scansione dei dati utilizzando lo spider.
check - Controlla gli elementi restituiti dal comando sottoposto a scansione.
list - Visualizza l'elenco degli spider disponibili presenti nel progetto.
edit - Puoi modificare gli spider usando l'editor.
parse - Analizza l'URL fornito con lo spider.
bench - Viene utilizzato per eseguire test di benchmark rapidi (il benchmark indica il numero di pagine che possono essere scansionate al minuto da Scrapy).
Comandi di progetto personalizzati
Puoi creare un comando di progetto personalizzato con COMMANDS_MODULEimpostazione nel progetto Scrapy. Include una stringa vuota predefinita nell'impostazione. Puoi aggiungere il seguente comando personalizzato:
COMMANDS_MODULE = 'mycmd.commands'
I comandi Scrapy possono essere aggiunti utilizzando la sezione scrapy.commands nel file setup.py mostrato come segue:
from setuptools import setup, find_packages
setup(name = 'scrapy-module_demo',
entry_points = {
'scrapy.commands': [
'cmd_demo = my_module.commands:CmdDemo',
],
},
)
Il codice sopra aggiunge cmd_demo comando in setup.py file.