docbook a utf-8
Matej Cepl
mcepl na redhat.com
Úterý Červenec 8 18:48:17 CEST 2008
On 2008-07-08, 09:07 GMT, Katerina bubenickova wrote:
> Zkousela jsem zpracovat soubor prvni.xml
> z http://www.kosek.cz/xml/db/intro.html#d4e279
Zkuste si
curl -s http://www.kosek.cz/xml/db/intro.html |less
a zjistíte, že ten HTML není v UTF-8. A když se na něj podíváte,
tak skutečně tam najdete
<meta http-equiv="Content-Type" content="text/html;
charset=windows-1250">
Takže, zkuste ještě jednou
curl -s http://www.kosek.cz/xml/db/intro.html \
|iconv -f windows-1250 -t utf-8|less
a uvidíte, že to je správně. Ten Váš původní XML by také
fungoval, kdyby místo prostého
<?xml version='1.0' encoding='utf-8'?>
(což je sice možná pravda v Docbooku ze kterého se ta HTML
stránka generovala, ale ne v tom HTML samém), změníte na
<?xml version='1.0' encoding='windows-1250'?>
Bude to fungovat?
Hezký den,
Matěj Cepl
Další informace o konferenci Linux