Kódovástránkafilesystému
Richard Kotal
richard.kotal na dolphingames.com
Středa Květen 16 11:12:54 CEST 2007
Petr "Qaxi" Klíma wrote:
>>
>> pokud mi prijde nejaka posta, ci prohlizim www, nepotrebuji locale na
>> UTF-8. Klient sam si najde spravne kodovani a pokud mam font, ktery
>> znaky obsahuje, tak se to taky sparvne zobrazi.
>
>
> Máte pravdu, ale ...
> Pokud koukáte na stánky napsané v kódování win-1250 tak prohlížeč
> překóduje výstup na iso-8859-2. Bohužel se vám 2-3 znaky budou
> zobrazovat špatně/vůbec (ta dvě kódování nejsou obsahově totožná).
> Pokud koukáte na stánky napsané v kódování win-1251 nebo koi ...
> (ruština) tak prohlížeč překóduje výstup na iso-8859-2. Bohužel se vám
> bude cca 30 znaků budou zobrazovat špatně/vůbec (ta dvě kódování nejsou
> obsahově ani podobná).
> Pokud koukáte na stánky napsané v kódování iso-8859-1 (iso-8859-15
> totéž se znakem Euro)(např francouzština) tak prohlížeč překóduje výstup
> na iso-8859-2. Bohužel se vám bude cca 15 znaků budou zobrazovat
> špatně/vůbec (ta dvě kódování nejsou obsahově totožná).
> A pokud se kouknete na stránky v kódování jiném než založeneém na ascii
> tak nemusíte vidět vůbec nic ...
Jeste naposled, tohle se mi temer nestava, ze bych videl neco spatne. A
pokud ano, tak staci pouze v prohlizeci prepnout kodovou stranku z
automaticke na tu spravnou a vse je OK.
>
>> Pokud pisu nekomu neco tak zasadne v OO a ne v obycejnem textaku. A
>> zde opet vystacim bez UTF-8, staci mit jen vhodny font, obsahujici
>> prislusne znaky a nastavenou kavesnici, vetsinou foneticky. Takto
>> napr. pisu rusky, pokud mam zminit nejaky nelatinkovy jazyk.
>
>
> Hmm OO interně používá UTF-8 .
>
>>
>> A tak bych mohl pokracovat dal.
>>
>> Na zaver dam jeden duvod, proc nepouzit UTF-8 a ze zde je naopak to
>> uplne nejhorsi reseni:
>>
>> Pouzivam DB firebird, pokud zde pouziji interni kodovani UTF-8, nejsem
>> schopny seradit ceske znaky spravne. UTF-8 totiz nepodporuje zarezni
>> ceskych znaku, dle pravidel razeni ceskych znaku, ale pouze to radi
>> dle posloupnosti znaku v UTF-8. To plat i pro ostani jazyky. Takze v
>> tomto pripade budu mit sice UTF-8, ale kdyz si budu chtit neco seradit
>> dle pravidel cestiny, tak to nepujde.
>
>
> to je problem FB a ne UTF-8
Je to sice problem FB, ale pro me duvod proc UTF-8 v tomto konkretnim
pripade nepouzivat.
>
> UTF-8 je kódování na přenosy mezi počítači.
>
> Ten kdo ho používá na interní ukládání dat v DB nemá rozum. Nad
> kódováním které má proměnnou šířku se obtížně pracuje se sortováním ...
>
> Pokud vím tak ve FB už to je vyřešené delší dobu ... upgradujte.
To uz jsem psal, to v nasem pripade neni tak jednoduche.
1) upgrade nepotrebujeme
2) do odladeneho produkcniho systemu nechci vnaset nove nezname chyby.
>
>
> Mimochodem jepší je interně použít UCS-2 s jednotonou délkou "písmena" 2
> byte
> (úplně univerzální by bylo UCS-4, ale v současnosti by to bylo
> zbytečně veliké rozhazování místa v paměti)
> a konverzi na cílové (klientem požadované) kódování dělat až při
> výstupu .
>
>>
>> A na uplny zaver, emaily zasade nejprve pisi bez hacku a carek, a az
>> ta druah strana zacne s nimi tak ja take. Prikladne, protoze si pisi s
>> kamaradkou z Kanady, ktera je ve francouzske casti, pracuje na to
>> Windows XP, tedy systemu, ktery pouziva UTF-8, ale kdyz ji neco poslu
>> s hackami a carkami,tak si to neprecte a nezmeni na tom nic, ani kdyz
>> to dam do utf-8.
>
>
> Windows XP nepracuji v UTF-8, pracuji v UTF-16 (UCS-2).
>
> Problém Vaší kamarádka není UTF-8, ale Microsoft ...
>
>> Ono je sice hezke, ze neco mate v UTF-8, ale kdyz vam jaksi chyby
>> fonty, kde ty znaky nejsou, tak s tim nic nenadelate. Ono sice muzete
>> mit otf fony, ale pokud nekdo v nich nenakresli ty rezy ankresli jen
>> prvnich 127 znaku, tak si z toho azbuku nikdy neprectete.
>>
>>
>> PS: Fuj, ze jsem nemlcel.
>
>
> ja taky ...
>
>>
>>> Zkratka kdyz nekomu nevadi ISo-8859-2, tak at jej pouziva. Neni na tom
>>> nic spatneho a pokud dostacuje, at na UTF-8 neprechazi. Proc by mel?
>>> Zatim jste nedali dokupy jediny kloudny argument mimo nejakych navodu,
>>> ktere urcite tvori kazdy bezny franta uzivatel.
>
>
> souhlas
>
> Zkusím dát dohromady alespoň nějaký.
>
> Většina distribucí (VD) podporuje UTF-8 (neříkám, že ho mají zapnutý v
> defaultu)
>
> tzn.
>
> 1. Pokud používám UTF-8, tak obsah mojich dokumentů (txt, HTML, XML)
> bude stejně čitelný a editovatelný BEZ KONVERZE na VD. To je přínos pro
> BFU.
>
> 2. Pokud ukládám na FS soubory se jmény s diakritikou, v UTF-8 budou
> vypadat stejně na všech VD. To je přínos pro BFU.
>
>>> Zajimave je, ze nikdo z vas nezminil, ze UTF-8 prinasi jiste zpomaleni.
>>>
>
> ??? Kdy ?
> Při výstupu na konzolu (musí se správně vybrat znak z fontu).
> Při sortování.
> Ostatním txt/datovým operacím je to jedno.
>
> Ale je to zpomalení takové, abyste ho pocíti stejně jako konverotvání
> pomocí iconv ? Pokud budu iconv používat častěji než 2x týdně tak jsem
> na tom s UTF-8 myslím líp ...
>
>
>
> Petr Klíma
>
> e-mail: qaxi na seznam.cz
>
Další informace o konferenci Linux