Autodetekce znakové sady
Oto Buchta
tapik na neo.cz
Čtvrtek Říjen 18 13:31:00 CEST 2001
Dne čt 18. říjen 2001 13:12 Roman Julius napsal(a):
> Zdravím,
>
> nevíte někdo náhodou o nějakém nástroji na detekci znakové sady?
???
Pokud vim, tak takovy nastroj by musel byt hodne nedeterministicky.
Soubor obsahujici jediny znak A1h je v ktere znakove sade?
ISO8859-1? 2? 5?. Soubor obsahujici A1hA1h je v unicode? UTF-8?
A tak bych mohl pokracovat. Navic jak rozpoznat, zda dany text neni nahodou v
CP1250? Opravdu to ma byt znak Copyright, nebo to ma byt velke S s hackem?
Pokud se nekde takovy nastroj objevi, rad bych ho videl.
Ale jinak existuji nastroje, ktere se "snazi uhodnout", ale nelze se na ne
stoprocentne spolehnout. Napriklad emacs se o to snazi.
Ma nadefinovany seznam kodovani, ktere postupne zkousi. Nejdrive otestuje,
zda soubor vyhovuje definici prvniho - jestli jsou korektni rozsahy. Pokud
ano, postupuje dal. Pokud takove kodovani objevi, pouzije je. Ale pouze pro
zobrazeni. Pak, kdyz clovek uvidi, ze je to zobrazeno blbe, explicitne mu
rekne spravne kodovani.
Ale jako radkova utilita by to asi nemelo valny smysl.
--
Oto 'tapik' Buchta
Další informace o konferenci Linux