cm4 Texte
cm4 Texte
cm4 Texte
Pierre Réty
février 2021
L1 informatique — Université d’Orléans
Retour sur le codage des caractères
Codage des caractères
1
ASCII
2
ISO 8859
Norme définissant 16 façons ISO-8859-𝑛 d’étendre ASCII, avec
le bit gauche à 1, pour la gestion d’autres langues :
• ISO-8859-1, latin-1, européen occidental
• ISO-8859-2, latin-2, européen central
• ISO-8859-3, latin-3, européen du Sud
• ISO-8859-4, latin-4, européen du Nord
• ISO-8859-5, cyrillique
• ISO-8859-6, arabe
• ISO-8859-7, grec
• ISO-8859-8, hébreu
• ISO-8859-9, latin-5, turc
• ISO-8859-10, latin-6, nordique
• ISO-8859-11, thaï
• ISO-8859-13, latin-7, balte
• ISO-8859-14, latin-8, celtique
• ISO-8859-15, latin-9, latin-1 + € 3
• ISO-8859-16, latin-10, européen du Sud-Est
ISO-8859-15 (latin-1 + codage de €)
𝑥= 0 1 2 3 4 5 6 7 8 9 𝐴 𝐵 𝐶 𝐷 𝐸 𝐹
4
EBCDIC
5
Unicode
7
Implémentation de l’unicode : UTF-8
10
Fichier texte brut
$ cat dumbo.txt
BlaBlaBlaBla
Un éléphant qui se balançait sur une toile d'araignée.
$ hexdump dumbo.txt
000000 42 6c 61 42 6c 61 42 6c 61 42 6c 61 0a 55 6e 20
000010 c3 a9 6c c3 a9 70 68 61 6e 74 20 71 75 69 20 73
000020 65 20 62 61 6c 61 6e c3 a7 61 69 74 20 73 75 72
000030 20 75 6e 65 20 74 6f 69 6c 65 20 64 27 61 72 61
000040 69 67 6e c3 a9 65 2e 0a 11
Base64 (Norme RFC 2045, 1996)
Remplissage (padding)
On complète par des zéros pour avoir un nombre entier de
mots de 6 bits.
si on ajoute 2 zéros, on rajoute = à la fin du texte codé
si on ajoute 4 zéros, on rajoute == à la fin du texte codé
12
0 A 17 R 34 i 51 z
1 B 18 S 35 j 52 0
2 C 19 T 36 k 53 1
3 D 20 U 37 l 54 2
4 E 21 V 38 m 55 3
5 F 22 W 39 n 56 4
6 G 23 X 40 o 57 5
7 H 24 Y 41 p 58 6
8 I 25 Z 42 q 59 7
9 J 26 a 43 r 60 8
10 K 27 b 44 s 61 9
11 L 28 c 45 t 62 +
12 M 29 d 46 u 63 /
13 N 30 e 47 v
14 O 31 f 48 w (pad) =
15 P 32 g 49 x
16 Q 33 h 50 y
13
Base64 (Norme RFC 2045, 1996)
$ cat dumbo.txt
BlaBlaBlaBla
Un éléphant qui se balançait sur une toile d'araignée.
14
Données structurées
Structuration des données
Données semi-structurées :
• une page web
• vos notes de cours
• un dictionnaire
Données structurées :
• les horaires de cinéma
• le contenu d’un agenda
• le système de réservation d’une compagnie aérienne 15
Modélisation relationnelle
16
Le format textuel CSV
id,Interprète,Titre,Année
1,Led Zeppelin,Stairway to Heaven,1971
2,AC/DC,Highway to Hell,1979
17
Données semi-structurées
XML
Rem : Chaque é est codé sur 2 octets en UTF-8, ce qui donne 2 caractères en latin-1.
21