konverze textu z iso-8859-2 do cp-1250

Martin `MJ' Mares mj na ucw.cz
Neděle Květen 20 16:43:57 CEST 2001


Ahoj!

> Je mozno mit pro kazdy Unicodovy znak seznam jinych znaku, ktere mu
> v sestupnem poradi presnosti odpovidaji, a pri prevodu na danou
> znakovou sadu vzit prvni, ktery v te cilove je. Pokud je v iconv tento
> nebo podobny mechanismus, prevedu do nej cstocs. Zda to tam ale je
> musi rict nekdo, kdo s iconvem aspon neco delal a tudiz vi, jak se to
> chova.

Zbezne jsem si cetl zdrojaky od Recode a objevil jsem dokonce jakesi davne
pokusy o takovouto featurku -- charsety `ASCII-BS' a `flat', do obou bohuzel
umi prevadet pouze z iso-8859-1, takze pro cestinu nepouzitelne. Melo by se
to ale dat pomerne snadno udelat poradne: zavest novy virtualni charset
typu "Unicode s expanzi" a podobne jako je nadefinovan konvertor z Unicode
do vice mene cehokoliv, nadefinovat i konverzi z expandovaneho Unicodu,
ktera bude automaticky vsechno, co v cilove znakove sade chybi, zkouset
expandovat podle Unicodovych expanznich tabulek. Pod to by se melo schovat
jak "odhackovavani" cestiny, tak i treba nahrazovani rameckovych znaku
ASCII-artem (opet v Recode funguje jen pro konverzi z IBM-PC do iso-8859-1
a v nem, tusim, nejsou vsechny PC-ckove znaky) a nahrazovani nekonvertovatelnych
znaku jejich jmeny (i kdyz by bylo jeste hezci, kdyby se dala Recodu vysvetlit
operace typu "pokud to jde, konvertuj podle jednoho pravidla, pokud nejde,
tak podle druheho").

Jen mit cas na programovani... Nu nic, uz se zase jdu ucit na zkousku :-)

				Have a nice fortnight
-- 
Martin `MJ' Mares   <mj na ucw.cz>   http://atrey.karlin.mff.cuni.cz/~mj/
Faculty of Math and Physics, Charles University, Prague, Czech Rep., Earth
A student who changes the course of history is probably taking an exam.


Další informace o konferenci Linux