ISO 8859-1
-1 | Latin-1 , vest-european |
---|---|
-2 | Latin-2 , Europa Centrală |
-3 | Latin-3 , sud-european |
-4 | Latin-4 , nord-european |
-5 | chirilic |
-6 | arabic |
-7 | Greacă |
-8 | Ebraică |
-9 | Latină-5 , turcă |
-10 | Latină-6 , nordică |
-11 | Thai |
|
(nu exista) |
-13 | Latină-7 , Baltică |
-14 | Latin-8 , celtic |
-15 | Latin-9 , vest-european |
-16 | Latin-10 , sud-est european |
ISO 8859-1 , mai precis ISO / IEC 8859-1 , cunoscut și sub numele de Latin-1 , este un standard de tehnologie informațională actualizat ultima dată de ISO în 1998 pentru codificarea caracterelor cu opt biți și prima parte a familiei de standarde ISO 8859 .
Caracterele care pot fi codate cu șapte biți corespund US- ASCII cu un bit zero principal. Pe lângă cele 95 de caractere ASCII reprezentabile (20 16 –7E 16 ), ISO 8859-1 codifică încă 96 (A0 16 –FF 16 ), deci un total de 191 din 256 posibil teoretic (= 2 8 ). Pozițiilor 00 16 –1F 16 și 7F 16 –9F 16 nu li se atribuie niciun caracter în ISO / IEC 8859 și deci ISO / IEC 8859-1. Această zonă a fost menținută liber în mod deliberat pentru a putea utiliza octeții corespunzători pentru controlul dispozitivului sau pentru a se asigura că acestea nu intră în conflict cu astfel de caractere de control dacă codificarea este insuficient specificată. Denumirea ISO-8859-1 (cu cratimă) definită de IANA reprezintă combinația caracterelor acestui standard cu caractere de control care nu pot fi afișate conform ISO / IEC 6429.
ISO / IEC 8859-1 încearcă să acopere cât mai multe caractere posibil în limbile vest-europene. Deoarece unele caractere lipsesc în plus față de simbolul euro , în special pentru franceză , ISO 8859-15 a fost creat ca o alternativă .
ISO 8859-1 este strâns legat de codarea caracterelor pe 8 biți Windows-1252 utilizată în sistemul de operare Windows . Ambele coduri diferă în intervalul 80 16 - 9F 16 : În timp ce ISO / IEC 8859-1 păstrează această zonă liberă, astfel încât caracterele de control să poată fi codate aici, Windows-1252 o ocupă cu caractere suplimentare de imprimat. Prin urmare, această codificare acceptă, de asemenea, majoritatea limbilor din Europa de Vest și conține, de asemenea, toate caracterele de tipărit din ISO 8859-15. Unele aplicații amestecă definiția ISO 8859-1 și Windows-1252. Deoarece caracterele de control suplimentare din ISO 8859-1 nu au nicio semnificație în HTML, de exemplu , caracterele tipărite din Windows-1252 sunt adesea folosite. Din acest motiv, noul standard HTML5 prevede că textele marcate ca ISO 8859-1 trebuie interpretate ca Windows-1252. În ianuarie 2019, 3,5% din toate site-urile web foloseau ISO 8859-1 și tendința scădea. Latin-1 este a doua cea mai frecventă codificare a site-urilor web după UTF-8 (93,0%). Windows-1252 este utilizat de 0,6% din site-urile web. Diferențele dintre toate aceste codificări și lipsa generală de consistență în susținerea diferitelor seturi de caractere sunt probleme comune de interoperabilitate.
Commodore Amiga care codifică caracterele pe 8 biți , care este utilizat în sistemul de operare AmigaOS , se bazează pe ISO 8859-1 și caracterele de control din ISO / IEC 6429 și diferă doar în patru modificări.
Datorită utilizării pe scară largă a ISO 8859-1, standardul Unicode a fost creat în așa fel încât standardul Unicode să fie o extensie a ISO 8859-1. Un caracter care este codat de valoarea octetului x în ISO 8859-1 ocupă, prin urmare, punctul de cod x din standardul Unicode . Secvența de octeți efectiv utilizată poate diferi de punctul de cod, de ex. B. cu codificare UTF-8 .
istorie
ISO 8859-1 se bazează pe setul de caractere multinaționale DEC utilizat de Digital Equipment Corporation în terminalul VT220 . A fost inițial dezvoltat de Asociația Europeană a Producătorilor de Calculatoare (ECMA) și publicat ca ECMA-94 în martie 1985 . A doua ediție a ECMA-94 a inclus și ISO 8859-2 , ISO 8859-3 și ISO 8859-4 ca parte a specificației.
Mese
ISO / IEC 8859-1
cod | … 0 | … 1 | … 2 | … 3 | … 4 | … 5 | … 6 | … 7 | … A 8-a | … 9 | … A | … B | ... C | ... D | … E | ... F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 ... | nefolosit | |||||||||||||||
1 ... | ||||||||||||||||
2 ... | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3 ... | 0 | 1 | 2 | 3 | Al 4-lea | 5 | Al 6-lea | Al 7-lea | A 8-a | 9 | : | ; | < | = | > | ? |
4 ... | @ | A. | B. | C. | D. | E. | F. | G | H | I. | J | K | L. | M. | N | O |
5 ... | P. | Î | R. | S. | T | U | V. | W. | X | Da | Z | [ | \ | ] | ^ | _ |
6 ... | ` | A | b | c | d | e | f | G | H | eu | j | k | l | m | n | O |
7 ... | p | q | r | s | t | tu | v | w | X | y | z | { | | | } | ~ | |
8 ... | nefolosit | |||||||||||||||
9 ... | ||||||||||||||||
A ... | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | TIMID | ® | ¯ |
B ... | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
C ... | A | A | A | A | A | A | Æ | Ç | È | E | Ê | Ë | Ì | Í | Î | Ï |
D ... | Ð | Ñ | O | O | O | O | Ö | × | O | Ù | Ú | Û | Ü | Ý | Þ | ß |
E ... | A | A | A | A | A | A | æ | ç | è | e | ê | ë | ì | í | î | ï |
F ... | ð | ñ | O | O | O | O | ö | ÷ | O | ù | ú | û | ü | ý | þ | ÿ |
SP (pentru spațiul englezesc , 20 hex ) este spațiul, NBSP ( spațiu non-break , A0 hex ) este spațiul fix și SHY ( cratimă moale , hex hex AD ) este „ cratima condițională ” care este vizibilă în mod normal doar la sfârșit a unei linii .
ISO / IEC 8859-1 combinat cu caractere speciale din ISO / IEC 6429
cod | … 0 | … 1 | … 2 | … 3 | … 4 | … 5 | … 6 | … 7 | … A 8-a | … 9 | … A | … B | ... C | ... D | … E | ... F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 ... | NUL | DECI H | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | ASA DE | SI |
1 ... | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | POATE SA | EM | SUB | ESC | FS | GS | RS | S.U.A. |
2 ... | precum ISO / IEC 8859, Windows-125X și US-ASCII | |||||||||||||||
3 ... | ||||||||||||||||
4 ... | ||||||||||||||||
5 ... | ||||||||||||||||
6 ... | ||||||||||||||||
7 ... | DEL | |||||||||||||||
8 ... | PAD | HOP | BPH | NBH | IND | NEL | SSA | ESA | HTS | HTJ | VTS | PLD | PLU | RI | SS2 | SS3 |
9 ... | DCS | PU1 | PU2 | STS | CCH | MW | SPA | EPA | SOS | SGCI | SCI | CSI | SF | OSC | P.M | APC |
A ... | precum ISO / IEC 8859-1 și Windows-1252 | |||||||||||||||
B ... | ||||||||||||||||
C ... | ||||||||||||||||
D ... | ||||||||||||||||
E ... | ||||||||||||||||
F ... |
IANA a înregistrat următoarele denumiri echivalente, non-sensibile la litere mari pentru acest tabel de coduri pentru utilizarea în aplicații de Internet , cum ar fi MIME :
- ISO_8859-1: 1987
- ISO_8859-1
- ISO-8859-1
- ISO-IR-100
- csISOLatin1
- latin1
- l1
- IBM819
- CP819
utilizare
Împreună cu US-ASCII și UTF-8 (o codificare Unicode ), ISO 8859-1 este o codificare frecvent utilizată pentru scripturile latine. Spre deosebire de UTF-8, caracterele turcești, maghiare și cehe nu pot fi utilizate integral.
ISO 8859-1 este suficient pentru cel puțin următoarele limbi:
- Engleză ( £, ¢ , din uz: Æ / æ, ä, ë, ï, ö, ü ; nu Œ / œ )
- Germană ( Ä / ä, Ö / ö, Ü / ü, ß , în cuvinte străine É / é ; în afara utilizării: nu ſ ( s lung ))
- Frizonul nordic ( Ä / ä, Ö / ö, Ü / ü, Å / å , nu Ā / ā, Đ / đ, Ē / ē pentru Sölring )
- Olandeză ( ÿ, Ë / ë, Ï / ï , mai rar Á / á, É / é, Í / í, Ó / ó, Ú / ú ; nu IJ / ij )
- Valonă ( Â / â, Å / å, Ç / ç, È / è, É / é, Ê / ê, Î / î, Ô / ô, Û / û )
- Afrikaans ( È / è, É / é, Ê / ê, Ë / ë, Î / î, Ï / ï, Ô / ô, Û / û )
- Daneză ( Å / å, Æ / æ, Ø / ø )
- Suedeză ( Å / å, Ä / ä, Ö / ö )
- Norvegiană , bokmål și nynorsk ( Å / å, Æ / æ, Ø / ø, Ò / ò )
- Feroeză ( Á / á, Ð / ð, Í / í, Ó / ó, Ú / ú, Ý / ý, Æ / æ, Ø / ø )
- Islandeză ( Á / á, Ð / ð, É / é, Í / í, Ó / ó, Ú / ú, Ý / ý, Þ / þ, Æ / æ, Ö / ö )
- Franceză ( Æ / æ, À / à,  / â, È / è, É / é, Ê / ê, Ë / ë, Î / î, Ï / ï, Ô / ô, Ù / ù, Û / û, Ç / ç, Ü / ü, ÿ , nu Œ / œ, Ÿ )
- Italiană ( À / à, È / è, É / é, Ì / ì, Ò / ò, Ù / ù )
- Română ( À / à, Á / á, Â / â, È / è, É / é, Ë / ë, Ì / ì, Í / í, Ò / ò, Ó / ó, Ö / ö, Ü / ü , nu Š / š )
- Catalană ( À / à, Ç / ç, È / è, É / é, Í / í, Ï / ï, Ò / ò, Ó / ó, Ú / ú, Ü / ü, ·, nu Ŀ / ŀ )
- Spaniolă ( ¡, ¿, ª, º, Á / á, É / é, Í / í, Ñ / ñ, Ó / ó, Ú / ú, Ü / ü , în afara utilizării: Ç / ç )
- Portugheză ( ª, º, À / à, Á / á, Â / â, Ã / ã, Ç / ç, É / é, Ê / ê, Í / í, Ó / ó, Ô / ô, Õ / õ, Ú / ú, Ü / ü )
- Gaelică irlandeză (ortografie nouă: Á / á, É / é, Í / í, Ó / ó, Ú / ú )
- Gaelică scoțiană ( À / à, È / è, É / é, Ì / ì, Ò / ò, Ó / ó, Ù / ù )
- Finlandeză ( Ä / ä, Ö / ö ; în cuvinte străine: Å / å , nu Š / š, Ž / ž )
- Estonă ( Ä / ä, Ö / ö, Ü / ü, Õ / õ , în cuvinte străine: nu Š / š, Ž / ž )
- Toate limbile din UE: nu EUR
Următoarele caractere nu pot fi complet codificate în ISO 8859-1 (limbile menționate sunt, așadar, acceptate doar parțial):
- Cehă (Č / č, Ď / ď, Ě / ě, Ň / ň, Ř / ř, Š / š, Ť / ť, Ů / ů, Ž / ž)
- Maghiară (Ő / ő, Ű / ű)
- Turcă (Ğ / ğ, İ / ı, Ș / ș)
Deoarece limbile acceptate sunt utilizate pe scară largă în Europa de Vest , America și Australia , aceasta a fost codificarea caracterelor dominante pe 8 biți peste tot. Sistemele noi utilizează UTF-8 . Este, de asemenea, răspândit în anumite părți ale Africii în care scriptul arab nu este utilizat, deși unele caractere speciale lipsesc adesea, dar nu sunt disponibile în nicio altă codificare pe 8 biți, vezi de ex. B. Alfabet panigerian .
cod | … 0 | … 1 | … 2 | … 3 | … 4 | … 5 | … 6 | … 7 | … A 8-a | … 9 | … A | … B | ... C | ... D | … E | ... F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
C ... / E ... | À / à | Á / á | Â / â | Ã / ã | Ä / Ä | Å / å | Æ / æ | Ç / ç | È / è | É / é | Ê / ê | Ë / ë | Ì / ì | Í / í | Î / î | Ï / ï |
fra ita cat por sco |
fao gle isl por spa |
fra por wln |
por | deu eng est fin swe |
dan fin nor swe wln |
dan eng fao fra isl nor |
alb fra cat por wln |
afr fra ita cat sco wln |
afr fra gle isl ita cat por spa wln |
afr fra por wln |
afr alb eng fra |
sco | fao gle isl cat por spa |
afr fra wln |
afr eng fra cat |
|
D ... / F ... | Ð / ð | Ñ / ñ | Ò / ò | Ó / ó | Ô / ô | Õ / õ | Ö / ö | Ø / ø | Ù / ù | Ú / ú | Û / û | O / o | Ý / ý | Þ / þ | ß / ÿ | |
fao isl |
baq spa |
ita cat sco |
fao gle isl cat por spa |
afr fra por wln |
est por |
deu eng est fin isl swe |
dan fao nor |
fra ita sco |
fao gle isl cat por spa |
afr fra wln |
deu eng est fra cat por spa |
fao isl |
isl | DEU est fra NLD |
Vezi si
Link-uri web
- Cartografiere ISO 8859-1 la Unicode.org
- Cartografierea Windows-1252 la Unicode.org
Dovezi individuale
- ↑ HTML 5.1 Nightly Editor's Draft 19 februarie 2013, 8.2.2.2 Codificări de caractere , accesat 19 februarie 2013.
- ↑ Codare caractere w3techs.com.
- ↑ Faq w3techs.com.
- ↑ ECMA (Ed.): Standard ECMA-94: seturi de caractere grafice codate pe 8 biți cu un singur octet . Ediția a II-a. Iunie 1984 ( ecma-international.org [PDF; 2.7 MB ; accesat la 4 ianuarie 2008]).