ceske trideni podle ISO-8859-2

Alexandr Malusek malusek na hroch.ujf.cas.cz
Úterý Duben 25 21:40:42 CEST 2000


dolik na nest.upol.cz (Jirka Jurek) writes:

> Pouzivam trideni pomoci locales a funkce strcoll z glibc-2.1
> 
> setrideni v us kodovani vypada:
> " 2"
> "10"
> to same v cs_CZ (ISO-8859-2):
> "10"
> " 2"
> 
> Norma na
> http://www.usiscr.cz/cz/standardy/tecstd08.html
> rika:

Zde mam terminologickou poznamku: Vyse uvedeny dokument neni norma,
pokud pod timto pojmem chapeme to, co vytvari napr. Cesky normalizacni
institut. Jde o "Technicky standard statniho informacniho systemu".
Rozdil je mimo jine v tom, ze na procesu pripravy normy se teoreticky
muze podilet kdokoliv, kdezto technicke standardy SIS pravdepodobne
vytvari jakasi komise, jejiz praci (pravdepodobne) pripominkovat
nemuzete.

> "Skupiny slov se radi postupne podle jednotlivych slov tvoricich skupinu,
> pri cemz nezalezi na poctu mezer, ktere oddeluji slova."
>          ^^^^^^^^
> a dale
> "Cislice se radi podle jejich ciselne hodnoty vzestupne za abecedu." 

Pojmem cislice je oznacovan prave jeden znak 0,1, ...,9. Retezec techto
znaku je oznacovan jako cislo. Vypusti-li se mezery, pak se maji tridit
"slova":
2
10
Zde znak (cislice) "2" je podle sve primarni radici schopnosti az za
znakem (cislici) "1", takze napr. sort spravne setridi radky do vyse
uvedeneho poradi
10
 2

> Problem ovsem je, ze v implementaci normy
> ftp://ftp.fi.muni.cz/pub/localization/locale/cs_CZ
> /usr/share/i18n/locales/cs_CZ
> je uvedeno:
> " Odlisnosti od normy:
> 3.10:
> Cisla nejsou razena podle ciselne hodnoty, ale podle hodnoty jednotlivych
> cislic."

Norma CSN 97 6030 byla navrzena hlavne pro ucely razeni v knihovnich
katalozich. Tam knihovnice stezi mohly rozeznat pocet mezer na strojem
psanych listcich, tezko mohly hadat, zda kolegyne napsala cislo
rimskymi nebo arabskymi cislicemi, ... Pro potreby pocitacoveho razeni
se tato norma nehodi a jak uz bylo v tomto listu zmineno, bez pouziti
umele inteligence implementovat nejde (Zde netvrdim, ze pri pouziti AI
to jde ;-) ).

> Takze bych se jeste rad dozvedel, jak se nejcasteji pise znak 
> nerozdelitelna mezera v ruznych editorech?

V Emacsu to pujde navazat na nejakou kombinaci klaves, ale jeste jsem
se nesetkal s tim, ze by tuto mezeru nekdo v "plain" textovych
souborech pouzival. (Ale mozna me vzdy osalila tim, ze vypada jako
obycejna mezera.)

> A dale, jestli se chystaji dalsi upravy ceskych locales v glibc?

Nevim, ale prinosnejsi by bylo napred tyto veci rozumne
standardizovat.

--
A. Malusek  (malusek na ujf.cas.cz)
UJF AV CR


Další informace o konferenci Linux