problemy s cestinou v html vystupu

Petr Rajsky kecup4 na centrum.cz
Čtvrtek Prosinec 9 13:51:48 CET 2004


Dobry den,

kupodivu az po nekolikaletem pouzivani DocBooku jsem narazil na zajimavy problem:

Exportuji XML (v UTF-8) Saxonem do HTML (v UTF-8). Ceska diakritika je ve vystup nahrazena sekvencemi ...íéů&uacute... coz je OK.

Nyni jsem ale zjistil, ze pokud je diakritika uvnitr atributu nekterych tagu, jsou do vystupu (tam kde je vlozen obsah atributu) namisto klasickych sekvenci zacinajicich znakem "&" generovany jine sekvence, zacinajici znakem "%".

Konkretne jsem se s tim setkal v pripade, kdy jsem z docbookoveho dokumentu odkazoval na externi soubor, ktery v nazvu obsahoval diakritiku - <ulink url = "nazev_souboru_s_diakritikou.html">text odstavce s cz znaky</ulink>

HTML vystup pak vypada priblizne takto:

...
<a href="%C4%9B%C5%A1%C4%8D%C5%99%C5%BE%C3
%BD%C3%A1%C3%AD%C3%A9%C5%AF%C3%BA"
>
ěščřžýá
íéůú
</a>
...

Zatimco sekvence "...ěšč&#345..." jsou v browseru (IE) spravne interpretovany jako ceske znaky, tak ...%C4%9B%..." zustanou ve stejnem formatu, takze v pripade hyperlinku se neodkazuje na soubor 
"nazev_souboru_s_diakritikou.html" ale na paskvil "...%C4%9B%C5%A1%C4%8D%C5%99...".

Proc je vlastne pouzito toto dvoji kodovani a nejsou vsude jen sekvence zacinajici na "&"? Jde (asi v XSL) nejak nastavit, aby se pro generovani obsahu atributu pouzily sekvence zacinajici na "&"?

Diky,
P.R.


Další informace o konferenci Docbook