ISO10646 & utf-8... (Re: Navigator v fonty pre cp1250)
Pavel Kankovsky
peak na kerberos.troja.mff.cuni.cz
Pátek Prosinec 19 14:19:09 CET 1997
On Fri, 19 Dec 1997, Pavel Machek wrote:
> Co je ISO10646? Jestli je to utf-8 tak souhlasim.
Omlouvam se za off-topic, ale v zajmu posileni verejne informovanosti to
posilam do konference.
ISO-10646 je norma, ktera si klade za cil vytvorit univerzalni kodovani,
ktere bude pokryvat vsechny znaky a symboly ve vsech pismech, co se na
teto planete (a mozna i jinde) vyskytuji, kodovani je 32-bitove (ale nevim
o tom, ze by ale bylo vyzito vic nez kody 0 az 65353, kde je Unicode, viz
nize).
Unicode je 16-bitove kodovani, vytvorene nezavisle na planech ISO, ktere
se vsak stalo tak popularni, ze ho ISO do ISO-10646 zahrnulo jako "Basic
Material Plane" (to neni AFAIK jejich oficialni termin, ale reminiscence
na AD&D nebo neco podobneho), tj. Unicode 2.0 je presne prvnich 2^16 pozic
z ISO-10646 (a ISO-8859-1 je zase presne prvnich 2^8 pozic v Unicode).
Utf-8 (a utf-7 a jine) jsou zpusoby kodovani Unicode (princip lze ovsem
rozsirit i na vicebitova kodovani), ktere ruznym znakum prirazuji ruzne
dlouhe sekvence bajtu a to takove, ze je mozno text v Unicode vydavat za
plain text v 8-bitovem (resp. 7-bitovem) kodovani. Navic ma aspon utf-8 tu
vlastnost, ze kody znaku z ASCII jsou jednobajtove a identicke s ASCII,
takze je vysledek celkem kompaktni a relativne citelny i v zakodovane
forme.
--Pavel Kankovsky aka Peak (troja.mff.cuni.cz network administration)
[ Boycott Microsoft -- http://www.vcnet.com/bms ]
Další informace o konferenci Linux