Closed nils-werner closed 12 years ago
Es wird momentan der normale Python SAX-Parser verwendet (kein "selbstgebauten String-Parser"). SAX statt DOM, weil manche Gesetze doch etwas länger sind (>80000 Zeilen). Könnte aber vermutlich auch mit einem DOM-Parser klappen.
Ich habe mal ein paar Monate mit XSLT gearbeitet und das möchte ich nicht wiederholen. Ich schaue mir funktionierende Lösungen gerne an, werde das aber garantiert nicht selbst nach XSLT umschreiben.
Es sieht so aus als würde die Transformation der XML-Daten mit einem selbstgebauten String-Parser geschehen. Hier wäre es evtl. deutlich einfacher und fehlerresistenter eine für die Verarbeitung von XML spezialisierte Sprachen wie XSLT zu verwenden.
Ein XSLT-Stylesheet, das HTML in Markdown umwandelt sähe dann z.B. so aus: http://getsymphony.com/download/xslt-utilities/view/20573/. Anpassungen an die gesetze-im-internet.de-Syntax sollten relativ einfach sein, das Stylesheet würde schließlich mit
xsltproc stylesheet.xsl daten.xml
ausgeführt werden.