Cas des caractères japonais
Les caractères japonais ne peuvent être représentés qu'avec des encodages
multi-octets et les standards d'encodage multiple sont utilisés suivant
la plate-forme et le texte de référence. Pour faciliter les choses, ces standards
d'encodages diffèrent légèrement les uns des autres.
Pour développer des applications Web en environnement
japonais, le développeur devra garder à l'esprit ces complexités afin de s'assurer
que l'encodage de caractères correct est utilisé.
-
La taille nécessaire à un caractère peut aller jusqu'à 4 octets.
-
Un caractère japonais multi-octets occupe généralement deux octets,
à comparer avec les caractères mono-octet traditionnellement
utilisés. Ces caractères sont appelés "zen-kaku", ce qui signifie
"grande largeur". Les plus petits sont appelés "han-kaku",
ce qui signifie "demi-largeur".
-
Certains encodages de caractères utilisent des séquences "shift" (escape)
définies dans la référence ISO-2022 pour basculer vers la carte d'encodage du code
spécifique (00h à 7fh).
-
ISO-2022-JP doit être utilisé pour les protocoles SMTP/NNTP, et les en-têtes ainsi
que les entités devraient être réencodés en accord avec la RFC correspondante.
Bien que cela ne soit pas requis, ça reste une bonne idée car beaucoup de
user-agent (agents utilisateurs) populaires ne peuvent pas reconnaître d'autre
méthode d'encodage.
-
Les pages Web créées pour les téléphones portables comme
» i-mode,
ou » EZweb
sont supposées utiliser l'encodage Shift_JIS.
-
Depuis PHP 5.4.0, les caractères en pictogramme
utilisés pour les téléphones mobiles, tel que
» i-mode
ou » EZweb
sont supportés.