docbook a utf-8

Matej Cepl mcepl na redhat.com
Úterý Červenec 8 18:48:17 CEST 2008


On 2008-07-08, 09:07 GMT, Katerina bubenickova wrote:
> Zkousela jsem zpracovat soubor prvni.xml 
> z http://www.kosek.cz/xml/db/intro.html#d4e279

Zkuste si

curl -s http://www.kosek.cz/xml/db/intro.html |less

a zjistíte, že ten HTML není v UTF-8. A když se na něj podíváte, 
tak skutečně tam najdete

<meta http-equiv="Content-Type" content="text/html; 
     charset=windows-1250">

Takže, zkuste ještě jednou

curl -s http://www.kosek.cz/xml/db/intro.html \
     |iconv -f windows-1250 -t utf-8|less

a uvidíte, že to je správně. Ten Váš původní XML by také 
fungoval, kdyby místo prostého

<?xml version='1.0' encoding='utf-8'?>

(což je sice možná pravda v Docbooku ze kterého se ta HTML 
stránka generovala, ale ne v tom HTML samém), změníte na

<?xml version='1.0' encoding='windows-1250'?>

Bude to fungovat?

Hezký den,

Matěj Cepl




Další informace o konferenci Linux