Основы японских многобайтных кодировок
Японские символы могут быть представлены только в многобайтных кодировках,
и многие стандарты кодирования зависят от платформы и назначения текста.
Осложняет ситуацию то, что эти стандарты немного друг от друга отличаются.
Чтобы создать веб-приложение, правильно работающее в японском окружении,
разработчику необходимо держать все эти расхождения в уме, чтобы быть уверенным,
что в каждый момент используется правильная кодировка.
-
Кодовое пространство для символа может занимать до шести байт
-
Большинство японских многобайтных символов требуют для хранения вдвое
больше пространства, чем однобайтные символы. Такие символы называют
"zen-kaku" по-японски, что означает "полная ширина".
Другие, более узкие символы называют "han-kaku", что значит
"полуширина". Графические свойства символов, однако, зависят от
шрифта, которым они отображаются.
-
В некоторых кодировках для смены кодовой разметки определенной области
кодов (00h на 7fh) используются
клавиши shift(escape), определенные в стандарте in ISO-2022.
-
ISO-2022-JP должен использоваться в SMTP/NNTP, а заголовки и сущности
должны перекодироваться в соответствии с требованиями RFC. Даже, если
перекодировка не требуется, все же она будет не лишней, так как некоторые
популярные почтовые клиенты не умеют работать с другими кодировками.
-
Веб-страницы, создаваемые для служб мобильных телефонов, таких как
» i-mode
или » EZweb
должны использовать кодировку Shift_JIS.
-
В PHP 5.4.0 поддерживаются символы пиктограмм, используемые в сервисах мобильных
телефонов, таких как » i-mode или
» EZweb.