Codage Unicode

Question 1

Qu'est ce que le standard Unicode ? (Définition)

Answer

Unicode est un système de codage informatique qui a pour but d'unifier les échanges de texte au niveau international. Avec Unicode, chaque caractère informatique est décrit par un nom et un code (point de code ou codepoint), l'identifiant de manière unique quel que soit le support informatique ou le logiciel utilisé. Unicode a déjà répertorié plus de 100000 caractères.

Parmi les premiers caractères Unicode, il y a les 128 codes ASCII (dont l'alphabet latin), puis l'alphabet phonétique international, puis les alphabets locaux (grec, cyrillique, etc.) puis des symboles et bien d'autres.

Un message encodé par Unicode est composé de nombres qui sont automatiquement traduit à l'écran en caractères affichables pour l'utilisateur (via UTF-8 ou UTF16).

Question 2

Comment encoder un message avec Unicode ? (Principe de chiffrement)

Answer

Il est possible de chiffrer un message en affichant les codes Unicode de chacun des caractères du message.

Exemple : Soit message DCΦD€ (le mot DCODE mais avec une lettre phi Φ et un symbole euro €)

Chaque caractère est en réalité codé informatiquement ainsi :

Caractère affiché	Code Unicode	Code Unicode Hexadecimal
D	68	44
C	67	43
Φ	934	03A6
D	68	44
€	8364	20AC

Les identifiants numériques Unicode, à l'instar de l'ASCII, sont régulièrement affichés au format hexadécimal pour une écriture plus concise.

La table de codage complète est disponible sur le site officiel ici ou ici (lien affilié)

Question 3

Comment décoder un message avec Unicode ? (Principe de déchiffrement)

Answer

Pour effectuer la traduction d'un message Unicode, réassocier à chaque code identifiant, son caractère Unicode.

Exemple : Le message 68,67,934,68,8364 se traduit individuellement par nombre : 68 => D, 67 => C, etc. afin d'obtenir DCΦD€.

Question 4

Comment reconnaitre le chiffre Unicode ?

Answer

Le message est composé de nombres (format décimal ou hexadécimal, plus rarement binaire). Pour un texte composé de lettres issues de l'alphabet latin, les nombres entre 64 et 122 (correspondant aux codes ASCII et Unicode des lettres A-Z et a-z) seront les plus fréquents.

Question 5

Qu'est ce que l'UTF-8 ? (Définition)

Answer

UTF-8 est un système de codage 100% compatible avec Unicode, qui a l'avantage d'être rétro-compatible avec l'ASCII. UTF8 est utilisée sur plus de 90% des sites internet.

UTF16 une variante d'encodage sur 16 bits, utilisé par Windows.

UTF32 est une autre variante, encore peu utilisée.

Question 6

Où trouver la classification complète Unicode ?

Answer

Le site officiel de l'Unicode Consortium est ici

Codage Unicode

Informations sur un Caractère Unicode

Conversion de points de codes

Convertisseur vers Unicode

Réponses aux Questions (FAQ)

Qu'est ce que le standard Unicode ? (Définition)

Comment encoder un message avec Unicode ? (Principe de chiffrement)

Comment décoder un message avec Unicode ? (Principe de déchiffrement)

Comment reconnaitre le chiffre Unicode ?

Qu'est ce que l'UTF-8 ? (Définition)

Où trouver la classification complète Unicode ?

Code source

Citation

Besoin d'Aide ?

Questions / Commentaires