XML - Codifica

Encodingè il processo di conversione dei caratteri Unicode nella loro rappresentazione binaria equivalente. Quando il processore XML legge un documento XML, codifica il documento a seconda del tipo di codifica. Quindi, dobbiamo specificare il tipo di codifica nella dichiarazione XML.

Tipi di codifica

Esistono principalmente due tipi di codifica:

  • UTF-8
  • UTF-16

UTF sta per UCS Transformation Format e UCS stesso significa Universal Character Set . Il numero 8 o 16 si riferisce al numero di bit utilizzati per rappresentare un carattere. Sono 8 (da 1 a 4 byte) o 16 (2 o 4 byte). Per i documenti senza informazioni sulla codifica, UTF-8 è impostato per impostazione predefinita.

Sintassi

Il tipo di codifica è incluso nella sezione prologo del documento XML. La sintassi per la codifica UTF-8 è la seguente:

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>

La sintassi per la codifica UTF-16 è la seguente:

<?xml version = "1.0" encoding = "UTF-16" standalone = "no" ?>

Esempio

L'esempio seguente mostra la dichiarazione di codifica -

<?xml version = "1.0" encoding = "UTF-8" standalone = "no" ?>
<contact-info>
   <name>Tanmay Patil</name>
   <company>TutorialsPoint</company>
   <phone>(011) 123-4567</phone>
</contact-info>

Nell'esempio sopra encoding="UTF-8", specifica che vengono utilizzati 8 bit per rappresentare i caratteri. Per rappresentare caratteri a 16 bit,UTF-16 può essere utilizzata la codifica.

I file XML codificati con UTF-8 tendono ad essere di dimensioni inferiori rispetto a quelli codificati con il formato UTF-16.