bundestag / gesetze-tools

Scripts to maintain German law git repository
GNU Lesser General Public License v3.0
114 stars 21 forks source link

XSLT verwenden #1

Closed nils-werner closed 12 years ago

nils-werner commented 12 years ago

Es sieht so aus als würde die Transformation der XML-Daten mit einem selbstgebauten String-Parser geschehen. Hier wäre es evtl. deutlich einfacher und fehlerresistenter eine für die Verarbeitung von XML spezialisierte Sprachen wie XSLT zu verwenden.

Ein XSLT-Stylesheet, das HTML in Markdown umwandelt sähe dann z.B. so aus: http://getsymphony.com/download/xslt-utilities/view/20573/. Anpassungen an die gesetze-im-internet.de-Syntax sollten relativ einfach sein, das Stylesheet würde schließlich mit xsltproc stylesheet.xsl daten.xml ausgeführt werden.

stefanw commented 12 years ago

Es wird momentan der normale Python SAX-Parser verwendet (kein "selbstgebauten String-Parser"). SAX statt DOM, weil manche Gesetze doch etwas länger sind (>80000 Zeilen). Könnte aber vermutlich auch mit einem DOM-Parser klappen.

Ich habe mal ein paar Monate mit XSLT gearbeitet und das möchte ich nicht wiederholen. Ich schaue mir funktionierende Lösungen gerne an, werde das aber garantiert nicht selbst nach XSLT umschreiben.