ISO 8859-1
ISO 8859-1, formalnie ISO/IEC 8859-1, potocznie Latin-1 lub zachodnioeuropejskie – pierwsza część ISO/IEC 8859, standardu kodowania znaków ustalonego przez Międzynarodową Organizację Normalizacyjną, a później wspólnie utrzymywanym przez tę organizację i Międzynarodową Komisję Elektrotechniczną. Standard po rozszerzeniu o dodatkowe przypisania znaków jest podstawą dla dwóch powszechnie używanych mapowań znaków znanych jako ISO-8859-1 (z dodatkowym łącznikiem) i Windows-1252.
Status
[edytuj | edytuj kod]W czerwcu 2004 roku trzecia grupa robocza ISO/IEC odpowiedzialna za utrzymywanie zestawów znaków kodowanych ośmiobitowo została rozwiązana i, co za tym idzie, wszelkie prace i utrzymanie ISO 8859 (w tym ISO 8859-1) zostały wstrzymane w celu skoncentrowania się nad uniwersalnym zestawem znaków i Unicode. W informatyce kodowania dostarczające pełne wsparcie dla UCS (takie jak UTF-8 czy UTF-16) coraz częściej są wybierane zamiast zestawów znaków opartych na Latin-1.
Pokrycie języków
[edytuj | edytuj kod]Przy pomocy ISO 8859-1 można zakodować to, co zwane jest alfabetem łacińskim numer 1, który składa się ze 191 znaków pisma łacińskiego. Każdy znak jest kodowany jako pojedyncza 8-bitowa wartość. Mogą one być użyte w prawie każdym systemie wymiany danych do komunikowania się w poniższych europejskich językach (z kilkoma wyjątkami, z powodu brakujących znaków):
- albańskim
- angielskim
- baskijskim
- duńskim
- estońskim (brakuje Š, š, Ž, ž dla zapożyczeń)
- Proszę zauważyć, że Windows-1252 je zawiera
- fareskim
- fińskim (brakuje Š, š, Ž, ž dla zapożyczeń)
- Proszę zauważyć, że Windows-1252 je zawiera
- francuskim (brakuje Œ, œ i rzadkiego Ÿ)
- Proszę zauważyć, że Windows-1252 je zawiera
- hiszpańskim
- irlandzkim (nowa ortografia)
- islandzkim
- katalońskim
- łacińskim
- niderlandzkim (brakuje IJ, ij)
- niemieckim
- norweskim (bokmål i nynorsk)
- portugalskim
- retoromańskim
- szkockim
- szwedzkim
- włoskim
Innymi pokrytymi językami są:
W związku z powyższym to kodowanie znaków jest używane w Amerykach, Europie Zachodniej, Oceanii i większej części Afryki, lecz dla niektórych języków brakuje poprawnych typograficznie cudzysłowów, zamiast których są dostępne « i ».
Różnice w stosunku do ISO/IEC 8859–15
[edytuj | edytuj kod]W ISO/IEC 8859-1 brakuje znaków: zaczynając od kilku francuskich liter, poprzez reprezentację „IJ” jako jednego znaku (IJ), fińskich liter używanych w transkrypcjach obcych nazw i kilku zapożyczeniach, skończywszy na braku kilku powszechnych glifów takich jak sztylet (†), typograficzne cudzysłowy („,”) i dywizów (-, –, –), a dodatkowo brak symbolu Euro (€). Z tych powodów powstało ISO/IEC 8859-15, jako uaktualnienie ISO/IEC 8859-1 dodające symbol euro i kilka innych wymaganych znaków. To jednak wymusiło usunięcie z ISO/IEC 8859-1 kilku mniej używanych znaków, takich jak ułamki i bezliterowe diakrytyki: ¤, ¦, ¨, ´, ¸, ¼, ½, i ¾. Szczegółowo przedstawia to poniższa tabela:
Porównanie kodowań | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Hex | ISO 8859-1 | ISO 8859-15 | Hex | ISO 8859-1 | ISO 8859-15 | Hex | ISO 8859-1 | ISO 8859-15 | Hex | ISO 8859-1 | ISO 8859-15 |
0x80 | ZK | 0xA0 | 0xC0 | À | 0xE0 | à | |||||
0x81 | ZK | 0xA1 | ¡ | 0xC1 | Á | 0xE1 | á | ||||
0x82 | ZK | 0xA2 | ¢ | 0xC2 | Â | 0xE2 | â | ||||
0x83 | ZK | 0xA3 | £ | 0xC3 | Ã | 0xE3 | ã | ||||
0x84 | ZK | 0xA4 | ¤ | € | 0xC4 | Ä | 0xE4 | ä | |||
0x85 | ZK | 0xA5 | ¥ | 0xC5 | Å | 0xE5 | å | ||||
0x86 | ZK | 0xA6 | ¦ | Š | 0xC6 | Æ | 0xE6 | æ | |||
0x87 | ZK | 0xA7 | § | 0xC7 | Ç | 0xE7 | ç | ||||
0x88 | ZK | 0xA8 | ¨ | š | 0xC8 | È | 0xE8 | è | |||
0x89 | ZK | 0xA9 | © | 0xC9 | É | 0xE9 | é | ||||
0x8A | ZK | 0xAA | ª | 0xCA | Ê | 0xEA | ê | ||||
0x8B | ZK | 0xAB | « | 0xCB | Ë | 0xEB | ë | ||||
0x8C | ZK | 0xAC | ¬ | 0xCC | Ì | 0xEC | ì | ||||
0x8D | ZK | 0xAD | 0xCD | Í | 0xED | í | |||||
0x8E | ZK | 0xAE | ® | 0xCE | Î | 0xEE | î | ||||
0x8F | ZK | 0xAF | ¯ | 0xCF | Ï | 0xEF | ï | ||||
0x90 | ZK | 0xB0 | ° | 0xD0 | Ð | 0xF0 | ð | ||||
0x91 | ZK | 0xB1 | ± | 0xD1 | Ñ | 0xF1 | ñ | ||||
0x92 | ZK | 0xB2 | ² | 0xD2 | Ò | 0xF2 | ò | ||||
0x93 | ZK | 0xB3 | ³ | 0xD3 | Ó | 0xF3 | ó | ||||
0x94 | ZK | 0xB4 | ´ | Ž | 0xD4 | Ô | 0xF4 | ô | |||
0x95 | ZK | 0xB5 | µ | 0xD5 | Õ | 0xF5 | õ | ||||
0x96 | ZK | 0xB6 | ¶ | 0xD6 | Ö | 0xF6 | ö | ||||
0x97 | ZK | 0xB7 | · | 0xD7 | × | 0xF7 | ÷ | ||||
0x98 | ZK | 0xB8 | ¸ | ž | 0xD8 | Ø | 0xF8 | ø | |||
0x99 | ZK | 0xB9 | ¹ | 0xD9 | Ù | 0xF9 | ù | ||||
0x9A | ZK | 0xBA | º | 0xDA | Ú | 0xFA | ú | ||||
0x9B | ZK | 0xBB | » | 0xDB | Û | 0xFB | û | ||||
0x9C | ZK | 0xBC | ¼ | Œ | 0xDC | Ü | 0xFC | ü | |||
0x9D | ZK | 0xBD | ½ | œ | 0xDD | Ý | 0xFD | ý | |||
0x9E | ZK | 0xBE | ¾ | Ÿ | 0xDE | Þ | 0xFE | þ | |||
0x9F | ZK | 0xBF | ¿ | 0xDF | ß | 0xFF | ÿ |
Gdzie „ZK” oznacza znak kontrolny, a „Znak” oznacza znak wspólny dla obydwu zestawów znaków.
Tablica kodów
[edytuj | edytuj kod]Zważywszy na fakt, że 191 znaków kodowanych przez ISO/IEC 8859-1 jest graficzne i zgodne z większością przeglądarek, mogą być wyświetlone w poniższej tabeli. Przez to, że znaki spacji (0x20), twardej spacji (0xA0) i miękkiego dywizu (0xAD) nie zostałyby wyświetlone w sposób widoczny, zastosowano skróty ich nazw.
ISO/IEC 8859-1:1998 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
x0 | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | xA | xB | xC | xD | xE | xF | |
0x | Znaki kontrolne | |||||||||||||||
1x | ||||||||||||||||
2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | Przecinek, | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | |
8x | Nieużywane | |||||||||||||||
9x | ||||||||||||||||
Ax | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY[a] | ® | ¯ |
Bx | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
Dx | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
Ex | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
Fx | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
Wartości 0x00–0x1F i 0x80–0x9F nie są przydzielone do znaków przez ISO/IEC 8859-1.
ISO 8859-1 został oparty na międzynarodowym zestawie znaków używanym przez DEC w popularnym terminalu VT220. Kodowanie to opracowane zostało przez Europejskie Stowarzyszenie na rzecz Standaryzacji Systemów Informatycznych i Komunikacyjnych i opublikowane wraz z ISO 8859-2, ISO 8859-3 i ISO 8859-4 jako część specyfikacji ECMA-94.
Mapowanie na Unicode
[edytuj | edytuj kod]Poniższa tabela przedstawia miejsca znaków z ISO 8859-1 w Unicode.
ISO/IEC 8859-1:1998 | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Hex | Znak | Unicode | Hex | Znak | Unicode | Hex | Znak | Unicode | Hex | Znak | Unicode |
0x80 | ZK | U+0080 | 0xA0 | NBSP | U+00A0 | 0xC0 | À | U+00C0 | 0xE0 | à | U+00E0 |
0x81 | ZK | U+0081 | 0xA1 | ¡ | U+00A1 | 0xC1 | Á | U+00C1 | 0xE1 | á | U+00E1 |
0x82 | ZK | U+0082 | 0xA2 | ¢ | U+00A2 | 0xC2 | Â | U+00C2 | 0xE2 | â | U+00E2 |
0x83 | ZK | U+0083 | 0xA3 | £ | U+00A3 | 0xC3 | Ã | U+00C3 | 0xE3 | ã | U+00E3 |
0x84 | ZK | U+0084 | 0xA4 | ¤ | U+00A4 | 0xC4 | Ä | U+00C4 | 0xE4 | ä | U+00E4 |
0x85 | ZK | U+0085 | 0xA5 | ¥ | U+00A5 | 0xC5 | Å | U+00C5 | 0xE5 | å | U+00E5 |
0x86 | ZK | U+0086 | 0xA6 | ¦ | U+00A6 | 0xC6 | Æ | U+00C6 | 0xE6 | æ | U+00E6 |
0x87 | ZK | U+0087 | 0xA7 | § | U+00A7 | 0xC7 | Ç | U+00C7 | 0xE7 | ç | U+00E7 |
0x88 | ZK | U+0088 | 0xA8 | ¨ | U+00A8 | 0xC8 | È | U+00C8 | 0xE8 | è | U+00E8 |
0x89 | ZK | U+0089 | 0xA9 | © | U+00A9 | 0xC9 | É | U+00C9 | 0xE9 | é | U+00E9 |
0x8A | ZK | U+008A | 0xAA | ª | U+00AA | 0xCA | Ê | U+00CA | 0xEA | ê | U+00EA |
0x8B | ZK | U+008B | 0xAB | « | U+00AB | 0xCB | Ë | U+00CB | 0xEB | ë | U+00EB |
0x8C | ZK | U+008C | 0xAC | ¬ | U+00AC | 0xCC | Ì | U+00CC | 0xEC | ì | U+00EC |
0x8D | ZK | U+008D | 0xAD | SHY | U+00AD | 0xCD | Í | U+00CD | 0xED | í | U+00ED |
0x8E | ZK | U+008E | 0xAE | ® | U+00AE | 0xCE | Î | U+00CE | 0xEE | î | U+00EE |
0x8F | ZK | U+008F | 0xAF | ¯ | U+00AF | 0xCF | Ï | U+00CF | 0xEF | ï | U+00EF |
0x90 | ZK | U+0090 | 0xB0 | ° | U+00B0 | 0xD0 | Ð | U+00D0 | 0xF0 | ð | U+00F0 |
0x91 | ZK | U+0091 | 0xB1 | ± | U+00B1 | 0xD1 | Ñ | U+00D1 | 0xF1 | ñ | U+00F1 |
0x92 | ZK | U+0092 | 0xB2 | ² | U+00B2 | 0xD2 | Ò | U+00D2 | 0xF2 | ò | U+00F2 |
0x93 | ZK | U+0093 | 0xB3 | ³ | U+00B3 | 0xD3 | Ó | U+00D3 | 0xF3 | ó | U+00F3 |
0x94 | ZK | U+0094 | 0xB4 | ´ | U+00B4 | 0xD4 | Ô | U+00D4 | 0xF4 | ô | U+00F4 |
0x95 | ZK | U+0095 | 0xB5 | µ | U+00B5 | 0xD5 | Õ | U+00D5 | 0xF5 | õ | U+00F5 |
0x96 | ZK | U+0096 | 0xB6 | ¶ | U+00B6 | 0xD6 | Ö | U+00D6 | 0xF6 | ö | U+00F6 |
0x97 | ZK | U+0097 | 0xB7 | · | U+00B7 | 0xD7 | × | U+00D7 | 0xF7 | ÷ | U+00F7 |
0x98 | ZK | U+0098 | 0xB8 | ¸ | U+00B8 | 0xD8 | Ø | U+00D8 | 0xF8 | ø | U+00F8 |
0x99 | ZK | U+0099 | 0xB9 | ¹ | U+00B9 | 0xD9 | Ù | U+00D9 | 0xF9 | ù | U+00F9 |
0x9A | ZK | U+009A | 0xBA | º | U+00BA | 0xDA | Ú | U+00DA | 0xFA | ú | U+00FA |
0x9B | ZK | U+009B | 0xBB | » | U+00BB | 0xDB | Û | U+00DB | 0xFB | û | U+00FB |
0x9C | ZK | U+009C | 0xBC | ¼ | U+00BC | 0xDC | Ü | U+00DC | 0xFC | ü | U+00FC |
0x9D | ZK | U+009D | 0xBD | ½ | U+00BD | 0xDD | Ý | U+00DD | 0xFD | ý | U+00FD |
0x9E | ZK | U+009E | 0xBE | ¾ | U+00BE | 0xDE | Þ | U+00DE | 0xFE | þ | U+00FE |
0x9F | ZK | U+009F | 0xBF | ¿ | U+00BF | 0xDF | ß | U+00DF | 0xFF | ÿ | U+00FF |
Uwagi
[edytuj | edytuj kod]- ↑ Miękki dywiz.