ISO10646 & utf-8... (Re: Navigator v fonty pre cp1250)

Pavel Kankovsky peak na kerberos.troja.mff.cuni.cz
Pátek Prosinec 19 14:19:09 CET 1997


On Fri, 19 Dec 1997, Pavel Machek wrote:

> Co je ISO10646? Jestli je to utf-8 tak souhlasim.

Omlouvam se za off-topic, ale v zajmu posileni verejne informovanosti to
posilam do konference.

ISO-10646 je norma, ktera si klade za cil vytvorit univerzalni kodovani,
ktere bude pokryvat vsechny znaky a symboly ve vsech pismech, co se na
teto planete (a mozna i jinde) vyskytuji, kodovani je 32-bitove (ale nevim
o tom, ze by ale bylo vyzito vic nez kody 0 az 65353, kde je Unicode, viz
nize).

Unicode je 16-bitove kodovani, vytvorene nezavisle na planech ISO, ktere
se vsak stalo tak popularni, ze ho ISO do ISO-10646 zahrnulo jako "Basic
Material Plane" (to neni AFAIK jejich oficialni termin, ale reminiscence
na AD&D nebo neco podobneho), tj. Unicode 2.0 je presne prvnich 2^16 pozic
z ISO-10646 (a ISO-8859-1 je zase presne prvnich 2^8 pozic v Unicode).

Utf-8 (a utf-7 a jine) jsou zpusoby kodovani Unicode (princip lze ovsem
rozsirit i na vicebitova kodovani), ktere ruznym znakum prirazuji ruzne
dlouhe sekvence bajtu a to takove, ze je mozno text v Unicode vydavat za
plain text v 8-bitovem (resp. 7-bitovem) kodovani. Navic ma aspon utf-8 tu
vlastnost, ze kody znaku z ASCII jsou jednobajtove a identicke s ASCII,
takze je vysledek celkem kompaktni a relativne citelny i v zakodovane
forme.


--Pavel Kankovsky aka Peak (troja.mff.cuni.cz network administration)
          [ Boycott Microsoft -- http://www.vcnet.com/bms ]



Další informace o konferenci Linux