Autodetekce znakové sady

Oto Buchta tapik na neo.cz
Čtvrtek Říjen 18 13:31:00 CEST 2001


Dne čt 18. říjen 2001 13:12 Roman Julius napsal(a):
> Zdravím,
>
> nevíte někdo náhodou o nějakém nástroji na detekci znakové sady?
???
Pokud vim, tak takovy nastroj by musel byt hodne nedeterministicky.
Soubor obsahujici jediny znak A1h je v ktere znakove sade?
ISO8859-1? 2? 5?. Soubor obsahujici A1hA1h je v unicode? UTF-8?
A tak bych mohl pokracovat. Navic jak rozpoznat, zda dany text neni nahodou v 
CP1250? Opravdu to ma byt znak Copyright, nebo to ma byt velke S s hackem?

Pokud se nekde takovy nastroj objevi, rad bych ho videl.

Ale jinak existuji nastroje, ktere se "snazi uhodnout", ale nelze se na ne 
stoprocentne spolehnout. Napriklad emacs se o to snazi.
Ma nadefinovany seznam kodovani, ktere postupne zkousi. Nejdrive otestuje, 
zda soubor vyhovuje definici prvniho - jestli jsou korektni rozsahy. Pokud 
ano, postupuje dal. Pokud takove kodovani objevi, pouzije je. Ale pouze pro 
zobrazeni. Pak, kdyz clovek uvidi, ze je to zobrazeno blbe, explicitne mu 
rekne spravne kodovani.

Ale jako radkova utilita by to asi nemelo valny smysl.
-- 
Oto 'tapik' Buchta


Další informace o konferenci Linux