Scrapy - Strisciando

Descrizione

Per eseguire il tuo spider, esegui il seguente comando nella tua directory first_scrapy -

scrapy crawl first

Dove, first è il nome del ragno specificato durante la creazione del ragno.

Una volta che il ragno striscia, puoi vedere il seguente output:

2016-08-09 18:13:07-0400 [scrapy] INFO: Scrapy started (bot: tutorial)
2016-08-09 18:13:07-0400 [scrapy] INFO: Optional features available: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Overridden settings: {}
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled extensions: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled downloader middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled spider middlewares: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Enabled item pipelines: ...
2016-08-09 18:13:07-0400 [scrapy] INFO: Spider opened
2016-08-09 18:13:08-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] DEBUG: Crawled (200) 
<GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2016-08-09 18:13:09-0400 [scrapy] INFO: Closing spider (finished)

Come puoi vedere nell'output, per ogni URL c'è una riga di log che (referer: Nessuno) afferma che gli URL sono URL iniziali e non hanno referrer. Successivamente, dovresti vedere due nuovi file denominati Books.html e Resources.html creati nella tua directory first_scrapy .