ufal / ParCzech

ParCzech is a project on compiling Czech parliamentary data into annotated corpora.
https://ufal.mff.cuni.cz/parczech
0 stars 1 forks source link

downloader: missing space between <ref>s (and possibly <note>s) #45

Closed matyaskopp closed 3 years ago

matyaskopp commented 3 years ago

This page contains the mess, but it should be correctly downloaded: https://www.psp.cz/eknih/2013ps/stenprot/044schuz/s044063.htm#r4

image

current downloader output (added newlines):

 <seg xml:id="ps2013-044-02-1811-114.u4.p1">
Děkuji za slovo, pane předsedající. 
Vážené kolegyně, kolegové, poslanecký návrh zákona, kterým se mění zákon č. 90/2012 Sb., 
o obchodních společnostech a družstvech, čili zákon o obchodních korporacích. 
Návrh zákona vám byl doručen jako sněmovní tisk 
<ref ana="#parla.print" n="7/592" source="https://www.psp.cz/sqw/historie.sqw?T=592&amp;O=7">592</ref><ref ana="#parla.print" n="7/7" source="https://www.psp.cz/sqw/historie.sqw?T=7&amp;O=7">7</ref>. 9. 2015. 
</seg>

missing space: T=592&amp;O=7">592</ref><ref ana="#parla.print" n="7/7"

matyaskopp commented 3 years ago

patched: https://github.com/ufal/ParCzech/commit/489ca58d87451f1a7c72d7afc40f522dbde62d3f