SGML, XML, nastroje a zkusenosti (trochu dlouhe)

Radek Hnilica radek na kvark.balga.cz
Čtvrtek Duben 19 22:54:41 CEST 2001


	Dobry den,
read bych se zeptal na par otazek ohledne SGML a XML.

Uvod:
	Jizn nejakou dobu pouzivam pro psani dokumentu format SGML s
DTD DebianDoc.  Dostal jsem se k teto kombinaci cestou nejmensiho nasili,
proste nastroje jednoduse nainstalovane v Debianu umoznuji transformovat
tato SGML do mnoha ruznuch formatu z nichz nejpodstatnejsi jsou pro mne
tri:
	- cisty text, formatovany (nemusim zduvodnovat proc)
	- HTML, (publikovani na webu)
	- dvi, ps, pdf, (dostat to na papir v kvalite)
Upozornuji ze se prilis v SGML a XML jakozto i nastrojich kolem nevyznam.
V Debianu po nainstalovani proste vsechno funguje a tak jsem se mohl
soustredit na nastudovani tagu a vlastni psani, vse ostatni jsem vynechal.
	Ovsem DebianDoc je pomerne jednoduchy a na vetsi veci to neni
to prave orechove.  Volba tedy padla na DTD DocBook (i kdyz je to
dinosaurus).  Predpokladam ze po trochu delsim studiu tagu bude pouzitelny.
Vzhledem k tomu, ze SGML verze je v podstate vybehova, a do budoucna bude
podporovana jen XML, a vzhledem k rozsirujici se popularite XML jsem se
rozhodl pro variantu XML.  Ono v podstate je v dokumentu mezi XML a SGML
rozdil jen v hlavicce (tedy pokud jsem rozumny a stejne pisu i SGML jako
XML).  Pri hledani nastroju jsem ovsem narazil.  Rozhodne to neni takove
"jednoduche" jako v pripade DebianDoc.

Otazky:
	Tedy jaky XSLT pouzit.  Zkousel jsem XT, Xalan a Saxon, vse jen
v Java verzi.  Jednotlive procesory maji kazdy sve vlastni problemy:
	- cestina, tedy iso-8859-2.  Jak XT tak Saxon me s prominutim
nakopali do *CENSORED*.  Tedy iso-8859-2 neni podporovano.  U Xalanu
uz jsem zapomel jestli mu to vadi.  Nakonec jsem to vyresil tak, ze
do hlavicky zcela nekonzistentne napisu ze dokument je v utf8 a pred
vlastni transformaci ho prozenu recode s iso-8859-2..utf8.
	- schopnost stravit docbook.xsl, zkousel jsem zatim jen
transformaci do HTML.  XT se nelibilo xsl, pry nejaka nedefinovana
promenna.  Vyzkousel jse tedy jak posledni stable tak unstable verzi
primo od Normana Welsche.  S Xalanem jsem byl uspesnejsi, proti xsl
neprotestoval, ale po nejakem case s prominutim chcipnul na nedostatek
pameti.  Jendine Saxon jsem rozchodil, a v tuhle chvili ho pouzivam,
tedy zacal jsem.

	Je nekde k dispozici, tedy delal uz nekdo trasformaci z DebianDoc
(SGML) do DocBook (SGML ci XML)

	Mate prosim nekdo zkusenosti z vycejazycnymy dokumenty?  Tedy
mam na mysli ze v jednom XML (pripadne SGML) jsou obe jazykove verze
a prislusnym nastrojem pak vyseparuji jednu nebo druhou.  Pripadne
v dokumentu po nejakych celcich pisi jazykove mutace a ve vyslednem
dokumentu se v pripade neexistence jedne mutace nektereho z celku pouzije
mutace v druhem ci tretim preferovanem jazyku.

	Mate nekdo zkusenosti s literalnim programovanim (dale jen LP)
s pouzitim XML.  Vim ze mnozi LP zavrhuji, me ale na mych vecech ktere
jsem zkousel LP umoznilo i po dlouhe dobe se v kodu *VELMI* rychle
zorientovat.  Ja vim, je to ukecane a otravne, ale v rade pripadu mi
to vyhovuje.  Prave DocBook se mi jevi jako cilovy formatovaci "jazyk"
velmi vhodnym.  Mam zarucenu velkou paletu tagu a transformace
do nejdulezitejsich cilovych formatu (TXT, HTML, DVI).  Na rozdil
od jinych nastroju ktere jako formatovaci jazyk vetsinou pouzivaji TeX
a pro jiny je treba napsat vlastni "backend".

Zaver:
	Pokud jste se docetli az sem, dekuji Vam za trpelivost,
a pokud budete moci zodpovedet nekterou z mych otazek, ci pomoci
mi vlastni zkusenosti, budu Vam povdecen.

-- 
Radek Hnilica <Radek at Balga dot CZ>
http://www.balga.cz/hnilica
===========================

No matter how far down the wrong road you've gone, turn back.
						Turkish proverb





Další informace o konferenci Linux