Scrapy - Altre impostazioni

La tabella seguente mostra altre impostazioni di Scrapy -

Suor n Impostazione e descrizione
1

AJAXCRAWL_ENABLED

Viene utilizzato per abilitare le grandi ricerche per indicizzazione.

Valore predefinito: False

2

AUTOTHROTTLE_DEBUG

È abilitato per vedere come vengono regolati i parametri di limitazione in tempo reale, che mostra le statistiche su ogni risposta ricevuta.

Valore predefinito: False

3

AUTOTHROTTLE_ENABLED

Viene utilizzato per abilitare l'estensione AutoThrottle.

Valore predefinito: False

4

AUTOTHROTTLE_MAX_DELAY

Viene utilizzato per impostare il ritardo massimo per il download in caso di latenze elevate.

Valore predefinito: 60,0

5

AUTOTHROTTLE_START_DELAY

Viene utilizzato per impostare il ritardo iniziale per il download.

Valore predefinito: 5,0

6

AUTOTHROTTLE_TARGET_CONCURRENCY

Definisce il numero medio di richieste che uno Scrapy invia parallelamente a siti remoti.

Valore predefinito: 1.0

7

CLOSESPIDER_ERRORCOUNT

Definisce il numero totale di errori che dovrebbero essere ricevuti prima che lo spider venga chiuso.

Valore predefinito: 0

8

CLOSESPIDER_ITEMCOUNT

Definisce un numero totale di elementi prima di chiudere lo spider.

Valore predefinito: 0

9

CLOSESPIDER_PAGECOUNT

Definisce il numero massimo di risposte di cui eseguire la scansione prima che lo spider si chiuda.

Valore predefinito: 0

10

CLOSESPIDER_TIMEOUT

Definisce la quantità di tempo (in secondi) per la chiusura di un ragno.

Valore predefinito: 0

11

COMMANDS_MODULE

Viene utilizzato quando si desidera aggiungere comandi personalizzati nel progetto.

Valore predefinito: ''

12

COMPRESSION_ENABLED

Indica che il middleware di compressione è abilitato.

Valore predefinito: vero

13

COOKIES_DEBUG

Se impostato su true, vengono registrati tutti i cookie inviati nelle richieste e ricevuti nelle risposte.

Valore predefinito: False

14

COOKIES_ENABLED

Indica che il middleware dei cookie è abilitato e inviato ai server web.

Valore predefinito: vero

15

FILES_EXPIRES

Definisce il ritardo per la scadenza del file.

Valore predefinito: 90 giorni

16

FILES_RESULT_FIELD

Viene impostato quando si desidera utilizzare altri nomi di campo per i file elaborati.

17

FILES_STORE

Viene utilizzato per memorizzare i file scaricati impostandolo su un valore valido.

18

FILES_STORE_S3_ACL

Viene utilizzato per modificare la policy ACL per i file archiviati nel bucket Amazon S3.

Valore predefinito: privato

19

FILES_URLS_FIELD

Viene impostato quando si desidera utilizzare un altro nome di campo per gli URL dei file.

20

HTTPCACHE_ALWAYS_STORE

Spider memorizzerà accuratamente le pagine nella cache se questa impostazione è abilitata.

Valore predefinito: False

21

HTTPCACHE_DBM_MODULE

È un modulo database utilizzato nel backend di archiviazione DBM.

Valore predefinito: "anydbm"

22

HTTPCACHE_DIR

È una directory utilizzata per abilitare e memorizzare la cache HTTP.

Valore predefinito: "httpcache"

23

HTTPCACHE_ENABLED

Indica che la cache HTTP è abilitata.

Valore predefinito: False

24

HTTPCACHE_EXPIRATION_SECS

Viene utilizzato per impostare l'ora di scadenza per la cache HTTP.

Valore predefinito: 0

25

HTTPCACHE_GZIP

Questa impostazione, se impostata su true, tutti i dati memorizzati nella cache verranno compressi con gzip.

Valore predefinito: False

26

HTTPCACHE_IGNORE_HTTP_CODES

Indica che le risposte HTTP non devono essere memorizzate nella cache con codici HTTP.

Valore predefinito: []

27

HTTPCACHE_IGNORE_MISSING

Questa impostazione, se abilitata, le richieste verranno ignorate se non trovate nella cache.

Valore predefinito: False

28

HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS

È un elenco contenente i controlli della cache da ignorare.

Valore predefinito: []

29

HTTPCACHE_IGNORE_SCHEME

Afferma che le risposte HTTP non devono essere memorizzate nella cache con schemi URI.

Valore predefinito: ["file"]

30

HTTPCACHE_POLICY

Definisce una classe che implementa la politica della cache.

Valore predefinito: "scrapy.extensions.httpcache.DummyPolicy"

31

HTTPCACHE_STORAGE

È una classe che implementa l'archiviazione della cache.

Valore predefinito: "scrapy.extensions.httpcache.FilesystemCacheStorage"

32

HTTPERROR_ALLOWED_CODES

È un elenco in cui tutte le risposte vengono passate con codici di stato diversi da 200.

Valore predefinito: []

33

HTTPERROR_ALLOW_ALL

Questa impostazione, se abilitata, tutte le risposte vengono passate nonostante i suoi codici di stato.

Valore predefinito: False

34

HTTPPROXY_AUTH_ENCODING

Viene utilizzato per autenticare il proxy su HttpProxyMiddleware .

Valore predefinito: "latin-1"

35

IMAGES_EXPIRES

Definisce il ritardo per la scadenza delle immagini.

Valore predefinito: 90 giorni

36

IMAGES_MIN_HEIGHT

Viene utilizzato per rilasciare immagini troppo piccole utilizzando una dimensione minima.

37

IMAGES_MIN_WIDTH

Viene utilizzato per rilasciare immagini troppo piccole utilizzando una dimensione minima.

38

IMAGES_RESULT_FIELD

Viene impostato quando si desidera utilizzare un altro nome di campo per le immagini elaborate.

39

IMAGES_STORE

Viene utilizzato per memorizzare le immagini scaricate impostandolo su un valore valido.

40

IMAGES_STORE_S3_ACL

Viene utilizzato per modificare la policy ACL per le immagini archiviate nel bucket Amazon S3.

Valore predefinito: privato

41

IMAGES_THUMBS

È impostato per creare le miniature delle immagini scaricate.

42

IMAGES_URLS_FIELD

Viene impostato quando si desidera utilizzare un altro nome di campo per gli URL delle immagini.

43

MAIL_FROM

Il mittente utilizza questa impostazione per inviare le e-mail.

Valore predefinito: "scrapy @ localhost"

44

MAIL_HOST

È un host SMTP utilizzato per inviare e-mail.

Valore predefinito: "localhost"

45

MAIL_PASS

È una password utilizzata per autenticare SMTP.

Valore predefinito: Nessuno

46

MAIL_PORT

È una porta SMTP utilizzata per inviare e-mail.

Valore predefinito: 25

47

MAIL_SSL

Viene utilizzato per implementare la connessione utilizzando la connessione crittografata SSL.

Valore predefinito: False

48

MAIL_TLS

Se abilitato, forza la connessione utilizzando STARTTLS.

Valore predefinito: False

49

MAIL_USER

Definisce un utente per autenticare SMTP.

Valore predefinito: Nessuno

50

METAREFRESH_ENABLED

Indica che il middleware di meta refresh è abilitato.

Valore predefinito: vero

51

METAREFRESH_MAXDELAY

È un ritardo massimo per il reindirizzamento di un meta refresh.

Valore predefinito: 100

52

REDIRECT_ENABLED

Indica che il middleware di reindirizzamento è abilitato.

Valore predefinito: vero

53

REDIRECT_MAX_TIMES

Definisce il numero massimo di volte per il reindirizzamento di una richiesta.

Valore predefinito: 20

54

REFERER_ENABLED

Indica che il middleware del referrer è abilitato.

Valore predefinito: vero

55

RETRY_ENABLED

Indica che il middleware per i tentativi è abilitato.

Valore predefinito: vero

56

RETRY_HTTP_CODES

Definisce quali codici HTTP devono essere ritentati.

Valore predefinito: [500, 502, 503, 504, 408]

57

RETRY_TIMES

Definisce il numero massimo di volte per riprovare.

Valore predefinito: 2

58

TELNETCONSOLE_HOST

Definisce un'interfaccia su cui la console telnet deve ascoltare.

Valore predefinito: "127.0.0.1"

59

TELNETCONSOLE_PORT

Definisce una porta da utilizzare per la console telnet.

Valore predefinito: [6023, 6073]