Kódovástránkafilesystému

"Petr \"Qaxi\" Klíma" qaxi na seznam.cz
Středa Květen 16 10:52:12 CEST 2007


> 
> pokud mi prijde nejaka posta, ci prohlizim www, nepotrebuji locale na 
> UTF-8. Klient sam si najde spravne kodovani a pokud mam font, ktery 
> znaky obsahuje, tak se to taky sparvne zobrazi.

Máte pravdu, ale ...
  Pokud koukáte na stánky napsané v kódování win-1250 tak prohlížeč 
překóduje výstup na iso-8859-2. Bohužel se vám 2-3 znaky budou 
zobrazovat špatně/vůbec (ta dvě kódování nejsou obsahově totožná).
  Pokud koukáte na stánky napsané v kódování win-1251 nebo koi ... 
(ruština) tak prohlížeč překóduje výstup na iso-8859-2. Bohužel se vám 
bude cca 30 znaků budou zobrazovat špatně/vůbec (ta dvě kódování nejsou 
obsahově ani podobná).
  Pokud koukáte na stánky napsané v kódování iso-8859-1 (iso-8859-15 
totéž se znakem Euro)(např francouzština) tak prohlížeč překóduje výstup 
na iso-8859-2. Bohužel se vám bude cca 15 znaků budou zobrazovat 
špatně/vůbec (ta dvě kódování nejsou obsahově totožná).
  A pokud se kouknete na stránky v kódování jiném než založeneém na 
ascii tak nemusíte vidět vůbec nic ...

> Pokud pisu nekomu neco tak zasadne v OO a ne v obycejnem textaku. A zde 
> opet vystacim bez UTF-8, staci mit jen vhodny font, obsahujici prislusne 
> znaky a nastavenou kavesnici, vetsinou foneticky. Takto napr. pisu 
> rusky, pokud mam zminit nejaky nelatinkovy jazyk.

Hmm OO interně používá UTF-8 .

> 
> A tak bych mohl pokracovat dal.
> 
> Na zaver dam jeden duvod, proc nepouzit UTF-8 a ze zde je naopak to 
> uplne nejhorsi reseni:
> 
> Pouzivam DB firebird, pokud zde pouziji interni kodovani UTF-8, nejsem 
> schopny seradit ceske znaky spravne. UTF-8 totiz nepodporuje zarezni 
> ceskych znaku, dle pravidel razeni ceskych znaku, ale pouze to radi dle 
> posloupnosti znaku v UTF-8. To plat i pro ostani jazyky. Takze v tomto 
> pripade budu mit sice UTF-8, ale kdyz si budu chtit neco seradit dle 
> pravidel cestiny, tak to nepujde.

to je problem FB a ne UTF-8

UTF-8 je kódování na přenosy mezi počítači.

Ten kdo ho používá na interní ukládání dat v DB nemá rozum. Nad 
kódováním které má proměnnou šířku se obtížně pracuje se sortováním ...

Pokud vím tak ve FB už to je vyřešené delší dobu ... upgradujte.


Mimochodem jepší je interně použít UCS-2 s jednotonou délkou "písmena" 2 
byte
	(úplně univerzální by bylo UCS-4, ale v současnosti by to bylo zbytečně 
veliké rozhazování místa v paměti)
a konverzi na cílové (klientem požadované) kódování dělat až při výstupu   .

> 
> A na uplny zaver, emaily zasade nejprve pisi bez hacku a carek, a az ta 
> druah strana zacne s nimi tak ja take. Prikladne, protoze si pisi s 
> kamaradkou z Kanady, ktera je ve francouzske casti, pracuje na to 
> Windows XP, tedy systemu, ktery pouziva UTF-8, ale kdyz ji neco poslu s 
> hackami a carkami,tak si to neprecte a nezmeni na tom nic, ani kdyz to 
> dam do utf-8.

Windows XP nepracuji v UTF-8, pracuji v UTF-16 (UCS-2).

Problém Vaší kamarádka není UTF-8, ale Microsoft ...

> Ono je sice hezke, ze neco mate v UTF-8, ale kdyz vam jaksi chyby fonty, 
> kde ty znaky nejsou, tak s tim nic nenadelate. Ono sice muzete mit otf 
> fony, ale pokud nekdo v nich nenakresli ty rezy ankresli jen prvnich 127 
> znaku, tak si z toho azbuku nikdy neprectete.
> 
> 
> PS: Fuj, ze jsem nemlcel.

ja taky ...

> 
>> Zkratka kdyz nekomu nevadi ISo-8859-2, tak at jej pouziva. Neni na tom
>> nic spatneho a pokud dostacuje, at na UTF-8 neprechazi. Proc by mel?
>> Zatim jste nedali dokupy jediny kloudny argument mimo nejakych navodu,
>> ktere urcite tvori kazdy bezny franta uzivatel.

souhlas

Zkusím dát dohromady alespoň nějaký.

Většina distribucí (VD) podporuje UTF-8 (neříkám, že ho mají zapnutý v 
defaultu)

tzn.

1. Pokud používám UTF-8, tak obsah mojich dokumentů (txt, HTML, XML) 
bude stejně čitelný a editovatelný BEZ KONVERZE na VD. To je přínos pro BFU.

2. Pokud ukládám na FS soubory se jmény s diakritikou, v UTF-8 budou 
vypadat stejně na všech VD. To je přínos pro BFU.

>> Zajimave je, ze nikdo z vas nezminil, ze UTF-8 prinasi jiste zpomaleni.
>>

??? Kdy ?
Při výstupu na konzolu (musí se správně vybrat znak z fontu).
Při sortování.
Ostatním txt/datovým operacím je to jedno.

Ale je to zpomalení takové, abyste ho pocíti stejně jako konverotvání 
pomocí iconv ? Pokud budu iconv používat častěji než 2x týdně tak jsem 
na tom s UTF-8 myslím líp ...



    Petr Klíma

    e-mail:  qaxi na seznam.cz




Další informace o konferenci Linux