Scrapy - Panoramica
Scrapy è un framework di scansione web veloce e open source scritto in Python, utilizzato per estrarre i dati dalla pagina web con l'aiuto di selettori basati su XPath.
Scrapy è stato rilasciato per la prima volta il 26 giugno 2008 con licenza BSD, con una pietra miliare 1.0 rilasciata a giugno 2015.
Perché usare Scrapy?
È più facile creare e scalare grandi progetti di ricerca per indicizzazione.
Ha un meccanismo integrato chiamato Selettori, per estrarre i dati dai siti web.
Gestisce le richieste in modo asincrono ed è veloce.
Regola automaticamente la velocità di scansione utilizzando il meccanismo di regolazione automatica .
Garantisce l'accessibilità agli sviluppatori.
Caratteristiche di Scrapy
Scrapy è un framework di scansione web open source e gratuito.
Scrapy genera esportazioni di feed in formati come JSON, CSV e XML.
Scrapy ha il supporto integrato per la selezione e l'estrazione di dati da sorgenti tramite XPath o espressioni CSS.
Scrapy basato su crawler, consente di estrarre automaticamente i dati dalle pagine web.
Vantaggi
Scrapy è facilmente estensibile, veloce e potente.
È un framework applicativo multipiattaforma (Windows, Linux, Mac OS e BSD).
Le richieste scrapy vengono pianificate ed elaborate in modo asincrono.
Scrapy viene fornito con un servizio integrato chiamato Scrapyd che consente di caricare progetti e controllare gli spider utilizzando il servizio web JSON.
È possibile eliminare qualsiasi sito Web, sebbene quel sito Web non disponga di API per l'accesso ai dati grezzi.
Svantaggi
Scrapy è solo per Python 2.7. +
L'installazione è diversa per i diversi sistemi operativi.