HTML - Codifiche dei caratteri
La codifica dei caratteri è un metodo per convertire i byte in caratteri. Per convalidare o visualizzare correttamente un documento HTML, un programma deve scegliere una codifica dei caratteri appropriata.
Il set di caratteri o la codifica dei caratteri più comune in uso sui computer è ASCII - The American Standard Code for Information Interchange, e questo è probabilmente il set di caratteri più utilizzato per la codifica elettronica del testo.
La codifica ASCII supporta solo l'alfabeto latino maiuscolo e minuscolo, i numeri da 0 a 9 e alcuni caratteri extra per un totale di 128 caratteri. Puoi dare un'occhiata al set completo di caratteri ASCII stampabili
Tuttavia, molte lingue utilizzano caratteri latini accentati o alfabeti completamente diversi. ASCII non affronta questi caratteri; pertanto, è necessario conoscere le codifiche dei caratteri se si desidera utilizzare caratteri non ASCII.
L'International Standards Organization ha creato una gamma di set di caratteri per trattare i diversi caratteri nazionali. Per i documenti in inglese e nella maggior parte delle altre lingue dell'Europa occidentale, viene utilizzata la codifica ISO-8859-1 ampiamente supportata.
Ecco l'elenco dei set di caratteri utilizzati in tutto il mondo insieme alla loro descrizione.
Suor n | Set di caratteri e descrizione |
---|---|
1 | ISO-8859-1 Alfabeto latino parte 1 Coprendo Nord America, Europa occidentale, America Latina, Caraibi, Canada, Africa |
2 | ISO-8859-2 Alfabeto latino parte 2 Coprendo l'Europa orientale |
3 | ISO-8859-3 Alfabeto latino parte 3 Coprendo SE Europa, Esperanto, altri vari |
4 | ISO-8859-4 Alfabeto latino parte 4 Copertura Scandinavia / Paesi Baltici (e altri non in ISO-8859-1) |
5 | ISO-8859-5 Alfabeto latino / cirillico parte 5 |
6 | ISO-8859-6 Alfabeto latino / arabo parte 6 |
7 | ISO-8859-7 Alfabeto latino / greco parte 7 |
8 | ISO-8859-8 Alfabeto latino / ebraico parte 8 |
9 | ISO-8859-9 Alfabeto latino 5 parte 9 Uguale a ISO-8859-1 tranne i caratteri turchi che sostituiscono quelli islandesi |
10 | ISO-8859-10 Latino 6 Latino 6 Lappone, nordico ed eschimese |
11 | ISO-8859-15 Uguale a ISO-8859-1 ma con più caratteri aggiunti |
12 | ISO-2022-JP Alfabeto latino / giapponese parte 1 |
13 | ISO-2022-JP-2 Alfabeto latino / giapponese parte 2 |
14 | ISO-2022-KR Alfabeto latino / coreano parte 1 |
L'Unicode Consortium è stato quindi istituito per escogitare un modo per mostrare tutti i caratteri di lingue diverse, piuttosto che avere questi codici di caratteri incompatibili diversi per lingue diverse.
Pertanto, se si desidera creare documenti che utilizzano caratteri da più set di caratteri, sarà possibile farlo utilizzando le singole codifiche di caratteri Unicode.
Unicode quindi specifica codifiche che possono gestire una stringa in modi speciali in modo da creare spazio sufficiente per l'enorme set di caratteri che racchiude. Questi sono noti come UTF8, UTF-16 e UTF-32.
Suor n | Set di caratteri e descrizione |
---|---|
1 | UTF-8 Un formato di traduzione Unicode disponibile in unità a 8 bit, ovvero in byte. Un carattere in UTF8 può essere lungo da 1 a 4 byte, rendendo la larghezza variabile UTF8. |
2 | UTF-16 Un formato di traduzione Unicode disponibile in unità a 16 bit, ovvero in pantaloncini. Può essere lungo 1 o 2 pantaloncini, rendendo la larghezza variabile UTF16. |
3 | UTF-32 Un formato di traduzione Unicode disponibile in unità a 32 bit, ovvero è disponibile in long. È un formato a larghezza fissa ed è sempre 1 "lungo". |
I primi 256 caratteri dei set di caratteri Unicode corrispondono ai 256 caratteri di ISO-8859-1.
Per impostazione predefinita, i processori HTML 4 dovrebbero supportare UTF-8 e i processori XML dovrebbero supportare UTF-8 e UTF-16; quindi tutti i processori compatibili con XHTML dovrebbero supportare anche UTF-16.