problemy s cestinou v html vystupu
Petr Rajsky
kecup4 na centrum.cz
Čtvrtek Prosinec 9 13:51:48 CET 2004
Dobry den,
kupodivu az po nekolikaletem pouzivani DocBooku jsem narazil na zajimavy problem:
Exportuji XML (v UTF-8) Saxonem do HTML (v UTF-8). Ceska diakritika je ve vystup nahrazena sekvencemi ...íéůú... coz je OK.
Nyni jsem ale zjistil, ze pokud je diakritika uvnitr atributu nekterych tagu, jsou do vystupu (tam kde je vlozen obsah atributu) namisto klasickych sekvenci zacinajicich znakem "&" generovany jine sekvence, zacinajici znakem "%".
Konkretne jsem se s tim setkal v pripade, kdy jsem z docbookoveho dokumentu odkazoval na externi soubor, ktery v nazvu obsahoval diakritiku - <ulink url = "nazev_souboru_s_diakritikou.html">text odstavce s cz znaky</ulink>
HTML vystup pak vypada priblizne takto:
...
<a href="%C4%9B%C5%A1%C4%8D%C5%99%C5%BE%C3
%BD%C3%A1%C3%AD%C3%A9%C5%AF%C3%BA"
>
ěščřžýá
íéůú
</a>
...
Zatimco sekvence "...ěščř..." jsou v browseru (IE) spravne interpretovany jako ceske znaky, tak ...%C4%9B%..." zustanou ve stejnem formatu, takze v pripade hyperlinku se neodkazuje na soubor
"nazev_souboru_s_diakritikou.html" ale na paskvil "...%C4%9B%C5%A1%C4%8D%C5%99...".
Proc je vlastne pouzito toto dvoji kodovani a nejsou vsude jen sekvence zacinajici na "&"? Jde (asi v XSL) nejak nastavit, aby se pro generovani obsahu atributu pouzily sekvence zacinajici na "&"?
Diky,
P.R.
Další informace o konferenci Docbook