sort a ceske razeni...

Michal Kubecek mike na mk-sys.cz
Úterý Říjen 19 16:47:07 CEST 2004


On Tue, Oct 19, 2004 at 03:49:18PM +0200, oldfrog.linux na volny.cz wrote:
> 
> Me by zajimal duvod, ktery vede k takto neprehlednemu razeni. Jako
> laicky navstevnik knihovny bych pozadoval, aby e s hackem bylo vzdy
> za e bez hacku nebo aby se radilo bez ohledu na diakritiku. Take by
> me zajimala pravdla razeni vicejazycneho vstupu. Jak radit nazvy
> publikaci, ktere pochazeji z ruznych jazyku.

Základní problém je, že celá ČSN norma je stavěna na tom, že porovnávání
řetězců nevychází z psané podoby slova, ale z mluvené. To se projevuje 
například i v tom, že kombinace 'ch' se sice obvykle považuje za jedno
"písmeno", ale ne vždy. V důsledku to vede k tomu, že zmíněná norma ČSN
je nealgoritmizovatelná, protože pracuje i se skrytou informací, která
není v samotných řetězcích obsažena. Fakticky se proto implementuje
určitá zjednodušená varianta (s dvouprůchodovým porovnáváním a tím, že
kombinace 'ch' je vždy chápána jako slitek).

Ideální by pochopitelně bylo, pokud by časem zvítězil zdravý rozum a
tyto vylomeniny (zejména šílenosti typu "Karel IV.") z normy zmizely.
Ale obávám se, že to nebude v nejbližších letech (a dost možná i
desetiletích) proveditelné... :-(

							  Michal Kubeček



Další informace o konferenci Linux