Scrapy - Esportazioni di mangimi

Descrizione

Le esportazioni di feed sono un metodo per archiviare i dati estratti dai siti, che genera un file "export file".

Formati di serializzazione

Utilizzando più formati di serializzazione e backend di archiviazione, Feed Exports utilizza gli esportatori di articoli e genera un feed con articoli raschiati.

La tabella seguente mostra i formati supportati -

Suor n Formato e descrizione
1

JSON

FEED_FORMAT è json

L'esportatore utilizzato è la classe scrapy.exporters.JsonItemExporter

2

JSON lines

FEED_FROMAT è jsonlines

L' utilità di esportazione utilizzata è la classe scrapy.exporters.JsonLinesItemExporter

3

CSV

FEED_FORMAT è CSV

L' utilità di esportazione utilizzata è la classe scrapy.exporters.CsvItemExporter

4

XML

FEED_FORMAT è xml

L' utilità di esportazione utilizzata è la classe scrapy.exporters.XmlItemExporter

Utilizzando FEED_EXPORTERS impostazioni, i formati supportati possono anche essere estesi -

Suor n Formato e descrizione
1

Pickle

FEED_FORMAT è pickel

L'esportatore utilizzato è la classe scrapy.exporters.PickleItemExporter

2

Marshal

FEED_FORMAT è il marshal

L'esportatore utilizzato è la classe scrapy.exporters.MarshalItemExporter

Backend di archiviazione

Il backend di archiviazione definisce dove archiviare il feed utilizzando l'URI.

La tabella seguente mostra i backend di archiviazione supportati:

Suor n Backend di archiviazione e descrizione
1

Local filesystem

Lo schema URI è un file e viene utilizzato per memorizzare i feed.

2

FTP

Lo schema URI è ftp e viene utilizzato per memorizzare i feed.

3

S3

Lo schema URI è S3 e i feed sono archiviati su Amazon S3. Sono richieste librerie esterne botocore o boto .

4

Standard output

Lo schema URI è stdout e i feed vengono memorizzati nell'output standard.

Parametri URI di archiviazione

Di seguito sono riportati i parametri dell'URL di archiviazione, che viene sostituito durante la creazione del feed:

  • % (time) s: questo parametro viene sostituito da un timestamp.
  • % (name) s: questo parametro viene sostituito dal nome dello spider.

impostazioni

La tabella seguente mostra le impostazioni con le quali è possibile configurare le esportazioni di feed:

Suor n Impostazione e descrizione
1

FEED_URI

È l'URI del feed di esportazione utilizzato per abilitare le esportazioni di feed.

2

FEED_FORMAT

È un formato di serializzazione utilizzato per il feed.

3

FEED_EXPORT_FIELDS

Viene utilizzato per definire i campi che devono essere esportati.

4

FEED_STORE_EMPTY

Definisce se esportare feed senza elementi.

5

FEED_STORAGES

È un dizionario con backend per l'archiviazione dei feed aggiuntivi.

6

FEED_STORAGES_BASE

È un dizionario con backend per l'archiviazione dei feed incorporati.

7

FEED_EXPORTERS

È un dizionario con ulteriori esportatori di mangimi.

8

FEED_EXPORTERS_BASE

È un dizionario con esportatori di mangimi integrati.