Kodovani cestiny v konferenci

Petr Kolar Petr.Kolar na vslib.cz
Čtvrtek Listopad 28 11:31:45 CET 2002


Michal Chocholac <mch na vosis.cz> wrote:
> On Tue, 26 Nov 2002, Ondrej Sury wrote:
>
> > Obavam se, ze pokud se nepujde trochu hrubou silou, tak na to pripraveni
> > vsichni nikdy nebudou.  Pokud nekomu dela cteni UTF-8 problemy, tak stale
> > muze odebirat linux-ascii list.
>
> Ale to nic nemění na tom, že Černého Petra mají v ruce ti, co v UTF-8 do
> konference píšou. Kdyby Meta-FAQ povolovala UTF-8, tak je to čistě
> čtenářova věc, jestli zcela regulérní kódování umí nebo ne. A jestli
> budeme vždycky porušovat podmínky, když s nimi nebudeme souhlasit, tak tu
> za chvíli můžeme mít parádní Kocourkov...

Myslim, ze se nejedna jenom o Meta-FAQ teto konference. Existuje take
princip robustnosti ("bud liberalni v tom, co prijimas a bud konzervativni
v tom, co generujes"), ktery by mely Internetove protokoly, sluzby a
aplikace pokud mozno dodrzovat.

Navic v nekterem RFC o poste (nevim jestli stale plati a jestli uz nebylo
nahrazeno necim mene "konzervativnim") bylo, ze mailer by mel posilat
postu v nejjednodussim moznem kodovani (pro danou zpravu). Takze at mam
mailer nastaveny jakkoli, pokud odeslu zpravu obsahujici pouze ASCII
znaky, mela by mit v hlavicce uvedene ASCII. Pokud ji napisu v UTF-8
a pujde prekonvertovat do ISO-8859-2, mela by byt pred odeslanim
prekonvertovana do ISO-8859-2. Pokud jsem tam cirou nahodou nepouzil
zadny znak, ktery je v ISO-8859-2 a neni v ISO-8859-1 (a neni to ciste
ASCII), mela by byt zkonvertovana do ISO-8859-1 a i tak oznacena (nevim,
jak je to v tomto pripade se vztahem mezi ISO-8859-1 a ISO-8859-15).

Pak by lidi, jejichz pocitace umi pouze ISO-8859-2, nemeli s vetsinou
dopisu problemy (dokud nekdo neposle neco v azbuce, arabstine nebo s tak
mnoha akcentovanymi znaky, ze to bude nezkonvertovatelne do ISO-8859-x).

Docela by mne zajimalo, jestli existuje program, ktery dostane soubor
v UTF-8 a rekne "jde to zkonvertovat do ISO-8859-neco". A taky jak by slo
donutit recode, aby spatne znaky ignoroval (neco jako -c u iconv, ktery
ale take nezafunguje pokazde) nebo jeste lepe konvertoval treba na neco
jako HTML entity.

P.S.: cteni textu ze souboru pro Word >=97 ;-)

iconv -c -f UTF-16LE < soubor.doc | perl -pe 's/\r/\n/g' > vystup.txt

S pozdravem
--
                          ***  Petr Kolar  ***
 Department of Information Technologies, Technical University of Liberec
             Voronezska 1329, 461 17 Liberec, Czech Republic
             Phone: +420-48-535-2371   Fax: +420-48-535-2229
      E-mail: Petr.Kolar na vslib.cz  http://www.kit.vslib.cz/~kolar/



Další informace o konferenci Linux