bundestag / gesetze

Bundesgesetze und -verordnungen
http://bundestag.github.io/gesetze/
The Unlicense
1.69k stars 156 forks source link

Umwandlung von Tabellen ist fehlerhaft #25

Open tobislaw opened 12 years ago

tobislaw commented 12 years ago

Bei Tabellen zB in §§ 19,22 EStG ist Markdown und Html Version praktisch immer falsch. Wahrscheinlich kann man die Stellen automatisch finden, wenn man in den Markdown-Versionen nach zwei Sternchen ( * ) nebeneinander sucht.

Auch für andere Bugs ist die Suche nach leerstehenden Sternchen möglich, z.B. die Umwandlung von fremdsprachlichen Begriffen in der Anlage 2 EStG, die auch nicht funktioniert.

stefanw commented 12 years ago

Eine Erklärung dazu:

Es gibt in Markdown keine Tabellen. Es gibt Tabellen in Markdown-Extension, aber die unterstützen nur einzeilige Zellen.

Tabellen werden im Gesetze-XML sehr auch teilweise zum Styling eingesetzt und nicht nur für tabellarische Daten. Meine Idee war, Tabellen in Listen (Zeilen) von Listen (Zellen) umzuwandeln. Das geht teilweise ordentlich schief, wenn es leere Zellen gibt, da Markdown keine leere Zellen unterstützt und dabei kaputt geht. Leere Zellen sind natürlich ein Anzeichen dafür, dass die Tabelle für Styling statt für tabellarische Daten genutzt wurde.

Die Tabellen-Konversion muss definitiv verbessert werden. Die Frage ist, welches Markdown dafür verwendet werden soll. Ich denke Listen von Listen ist immer noch ein gutes Format. Man muss nur mit leeren Zellen besser umgehen.

Vielleicht gibt es auch noch ein anderes Problem, das zu kaputten Tabellen führt.

rriemann commented 12 years ago

Selbst das jekyll von github kann auf Kramdown (ein anderer, meiner Meinung nach besserer Parser) umgestellt werden. Kramdown kann Tabellen!

http://kramdown.rubyforge.org/ http://kramdown.rubyforge.org/quickref.html#tables

Edit: Ah sorry, das Problem sitzt tiefer. Hab das Problem nicht gleich erfasst.

nichtich commented 12 years ago

Pandoc Markdown kann auch Tabellen mit mehreren Zeilen pro Zelle. Neben anderen Features sind mit Pandoc auch Literaturangaben in Markdown möglich. Ich würde es auch zur Normalisierung empfehlen.

stefanw commented 12 years ago

Pandoc Markdown Grid Tables sehen tatsächlich ganz gut aus. Ich habe die aktuelle Markdown syntax so gebaut, dass sie kompatibel mit GitHub Markdown/GitHub Pages rendering ist. Aber wenn wir eh eine eigene processing pipeline für statisches HTML rendern aufsetzen, dann kann ich mir gut vorstellen, dass wir Pandoc Markdown verwenden.