Scrapy - Panoramica

Scrapy è un framework di scansione web veloce e open source scritto in Python, utilizzato per estrarre i dati dalla pagina web con l'aiuto di selettori basati su XPath.

Scrapy è stato rilasciato per la prima volta il 26 giugno 2008 con licenza BSD, con una pietra miliare 1.0 rilasciata a giugno 2015.

Perché usare Scrapy?

  • È più facile creare e scalare grandi progetti di ricerca per indicizzazione.

  • Ha un meccanismo integrato chiamato Selettori, per estrarre i dati dai siti web.

  • Gestisce le richieste in modo asincrono ed è veloce.

  • Regola automaticamente la velocità di scansione utilizzando il meccanismo di regolazione automatica .

  • Garantisce l'accessibilità agli sviluppatori.

Caratteristiche di Scrapy

  • Scrapy è un framework di scansione web open source e gratuito.

  • Scrapy genera esportazioni di feed in formati come JSON, CSV e XML.

  • Scrapy ha il supporto integrato per la selezione e l'estrazione di dati da sorgenti tramite XPath o espressioni CSS.

  • Scrapy basato su crawler, consente di estrarre automaticamente i dati dalle pagine web.

Vantaggi

  • Scrapy è facilmente estensibile, veloce e potente.

  • È un framework applicativo multipiattaforma (Windows, Linux, Mac OS e BSD).

  • Le richieste scrapy vengono pianificate ed elaborate in modo asincrono.

  • Scrapy viene fornito con un servizio integrato chiamato Scrapyd che consente di caricare progetti e controllare gli spider utilizzando il servizio web JSON.

  • È possibile eliminare qualsiasi sito Web, sebbene quel sito Web non disponga di API per l'accesso ai dati grezzi.

Svantaggi

  • Scrapy è solo per Python 2.7. +

  • L'installazione è diversa per i diversi sistemi operativi.