Kódovástránkafilesystému

Středa Květen 16 11:12:54 CEST 2007

Petr "Qaxi" Klíma wrote:
>>
>> pokud mi prijde nejaka posta, ci prohlizim www, nepotrebuji locale na 
>> UTF-8. Klient sam si najde spravne kodovani a pokud mam font, ktery 
>> znaky obsahuje, tak se to taky sparvne zobrazi.
> 
> 
> Máte pravdu, ale ...
>  Pokud koukáte na stánky napsané v kódování win-1250 tak prohlížeč 
> překóduje výstup na iso-8859-2. Bohužel se vám 2-3 znaky budou 
> zobrazovat špatně/vůbec (ta dvě kódování nejsou obsahově totožná).
>  Pokud koukáte na stánky napsané v kódování win-1251 nebo koi ... 
> (ruština) tak prohlížeč překóduje výstup na iso-8859-2. Bohužel se vám 
> bude cca 30 znaků budou zobrazovat špatně/vůbec (ta dvě kódování nejsou 
> obsahově ani podobná).
>  Pokud koukáte na stánky napsané v kódování iso-8859-1 (iso-8859-15 
> totéž se znakem Euro)(např francouzština) tak prohlížeč překóduje výstup 
> na iso-8859-2. Bohužel se vám bude cca 15 znaků budou zobrazovat 
> špatně/vůbec (ta dvě kódování nejsou obsahově totožná).
>  A pokud se kouknete na stránky v kódování jiném než založeneém na ascii 
> tak nemusíte vidět vůbec nic ...

Jeste naposled, tohle se mi temer nestava, ze bych videl neco spatne. A 
pokud ano, tak staci pouze v prohlizeci prepnout kodovou stranku z 
automaticke na tu spravnou a vse je OK.

> 
>> Pokud pisu nekomu neco tak zasadne v OO a ne v obycejnem textaku. A 
>> zde opet vystacim bez UTF-8, staci mit jen vhodny font, obsahujici 
>> prislusne znaky a nastavenou kavesnici, vetsinou foneticky. Takto 
>> napr. pisu rusky, pokud mam zminit nejaky nelatinkovy jazyk.
> 
> 
> Hmm OO interně používá UTF-8 .
> 
>>
>> A tak bych mohl pokracovat dal.
>>
>> Na zaver dam jeden duvod, proc nepouzit UTF-8 a ze zde je naopak to 
>> uplne nejhorsi reseni:
>>
>> Pouzivam DB firebird, pokud zde pouziji interni kodovani UTF-8, nejsem 
>> schopny seradit ceske znaky spravne. UTF-8 totiz nepodporuje zarezni 
>> ceskych znaku, dle pravidel razeni ceskych znaku, ale pouze to radi 
>> dle posloupnosti znaku v UTF-8. To plat i pro ostani jazyky. Takze v 
>> tomto pripade budu mit sice UTF-8, ale kdyz si budu chtit neco seradit 
>> dle pravidel cestiny, tak to nepujde.
> 
> 
> to je problem FB a ne UTF-8

Je to sice problem FB, ale pro me duvod proc UTF-8 v tomto konkretnim 
pripade nepouzivat.

> 
> UTF-8 je kódování na přenosy mezi počítači.
> 
> Ten kdo ho používá na interní ukládání dat v DB nemá rozum. Nad 
> kódováním které má proměnnou šířku se obtížně pracuje se sortováním ...
> 
> Pokud vím tak ve FB už to je vyřešené delší dobu ... upgradujte.

To uz jsem psal, to v nasem pripade neni tak jednoduche.
1) upgrade nepotrebujeme
2) do odladeneho produkcniho systemu nechci vnaset nove nezname chyby.

> 
> 
> Mimochodem jepší je interně použít UCS-2 s jednotonou délkou "písmena" 2 
> byte
>     (úplně univerzální by bylo UCS-4, ale v současnosti by to bylo 
> zbytečně veliké rozhazování místa v paměti)
> a konverzi na cílové (klientem požadované) kódování dělat až při 
> výstupu   .
> 
>>
>> A na uplny zaver, emaily zasade nejprve pisi bez hacku a carek, a az 
>> ta druah strana zacne s nimi tak ja take. Prikladne, protoze si pisi s 
>> kamaradkou z Kanady, ktera je ve francouzske casti, pracuje na to 
>> Windows XP, tedy systemu, ktery pouziva UTF-8, ale kdyz ji neco poslu 
>> s hackami a carkami,tak si to neprecte a nezmeni na tom nic, ani kdyz 
>> to dam do utf-8.
> 
> 
> Windows XP nepracuji v UTF-8, pracuji v UTF-16 (UCS-2).
> 
> Problém Vaší kamarádka není UTF-8, ale Microsoft ...
> 
>> Ono je sice hezke, ze neco mate v UTF-8, ale kdyz vam jaksi chyby 
>> fonty, kde ty znaky nejsou, tak s tim nic nenadelate. Ono sice muzete 
>> mit otf fony, ale pokud nekdo v nich nenakresli ty rezy ankresli jen 
>> prvnich 127 znaku, tak si z toho azbuku nikdy neprectete.
>>
>>
>> PS: Fuj, ze jsem nemlcel.
> 
> 
> ja taky ...
> 
>>
>>> Zkratka kdyz nekomu nevadi ISo-8859-2, tak at jej pouziva. Neni na tom
>>> nic spatneho a pokud dostacuje, at na UTF-8 neprechazi. Proc by mel?
>>> Zatim jste nedali dokupy jediny kloudny argument mimo nejakych navodu,
>>> ktere urcite tvori kazdy bezny franta uzivatel.
> 
> 
> souhlas
> 
> Zkusím dát dohromady alespoň nějaký.
> 
> Většina distribucí (VD) podporuje UTF-8 (neříkám, že ho mají zapnutý v 
> defaultu)
> 
> tzn.
> 
> 1. Pokud používám UTF-8, tak obsah mojich dokumentů (txt, HTML, XML) 
> bude stejně čitelný a editovatelný BEZ KONVERZE na VD. To je přínos pro 
> BFU.
> 
> 2. Pokud ukládám na FS soubory se jmény s diakritikou, v UTF-8 budou 
> vypadat stejně na všech VD. To je přínos pro BFU.
> 
>>> Zajimave je, ze nikdo z vas nezminil, ze UTF-8 prinasi jiste zpomaleni.
>>>
> 
> ??? Kdy ?
> Při výstupu na konzolu (musí se správně vybrat znak z fontu).
> Při sortování.
> Ostatním txt/datovým operacím je to jedno.
> 
> Ale je to zpomalení takové, abyste ho pocíti stejně jako konverotvání 
> pomocí iconv ? Pokud budu iconv používat častěji než 2x týdně tak jsem 
> na tom s UTF-8 myslím líp ...
> 
> 
> 
>    Petr Klíma
> 
>    e-mail:  qaxi na seznam.cz
>