Scrapy - Scraped Data

Descrizione

Il modo migliore per archiviare i dati di scraping è utilizzare le esportazioni di feed, che garantisce che i dati vengano archiviati correttamente utilizzando più formati di serializzazione. JSON, linee JSON, CSV, XML sono i formati supportati prontamente nei formati di serializzazione. I dati possono essere memorizzati con il seguente comando:

scrapy crawl dmoz -o data.json

Questo comando creerà un file data.jsonfile contenente dati raschiati in JSON. Questa tecnica è valida per piccole quantità di dati. Se è necessario gestire una grande quantità di dati, è possibile utilizzare Item Pipeline. Proprio come il file data.json, un file riservato viene impostato quando il progetto viene creato intutorial/pipelines.py.