ufal / ParCzech

ParCzech is a project on compiling Czech parliamentary data into annotated corpora.
https://ufal.mff.cuni.cz/parczech
0 stars 1 forks source link

udpipe: remove join="right" from last token in paragraph #191

Closed matyaskopp closed 1 year ago

matyaskopp commented 2 years ago

this issue can be related and probably fixed with #181, but for sure add testing of this situation on document saving

INFO: Validating level 2: ParlaMint-CZ_2014-05-15-ps2013-008-07-009-085
[Line 669 Sent ParlaMint-CZ_2014-05-15-ps2013-008-07-009-085.u3.p16.s1]: [L2 Metadata spaceafter-newdocpar] New docume
nt or paragraph starts when the last token of the previous sentence says SpaceAfter=No.
Metadata errors: 1
*** FAILED *** with 1 errors

non- annotated ParCzech version:

<seg xml:id="ps2013-008-07-009-085.u3.p14">VII. konstatuje, že údaje uvedené ve výroční finanční zprávě strany a hnutí nejsou v souladu s § 19 zákona č. 424/1991 Sb. u těchto politických stran a hnutí - následuje seznam 3 politických stran;</seg>
 <!-- the issue is here: -->
 <seg xml:id="ps2013-008-07-009-085.u3.p15">VIII. pověřuje předsedu Poslanecké sněmovny, aby</seg>
 <seg xml:id="ps2013-008-07-009-085.u3.p16">1. v souladu s § 19a odst. 3 zákona č. 424/1991 Sb. seznámil s body VI. a VII. tohoto usnesení příslušné finanční úřady;</seg>

simplified and formated udpipe version:

<seg xml:id="ps2013-008-07-009-085.u3.p15">
   <s xml:id="ps2013-008-07-009-085.u3.p15.s1">
      <!-- VIII. pověřuje předsedu Poslanecké sněmovny, aby -->
...
      <w xml:id="ps2013-008-07-009-085.u3.p15.s1.w5" lemma="poslanecký" pos="ADJ" msd="UPosTag=ADJ|Case=Gen|Degree=Pos|Gender=Fem|Number=Sing|Polarity=Pos">Poslanecké</w>
      <w xml:id="ps2013-008-07-009-085.u3. p15.s1.w6" lemma="sněmovna" pos="NOUN" msd="UPosTag=NOUN|Case=Gen|Gender=Fem|Number=Sing|Polarity=Pos" join="right">sněmovny</w>
      <pc xml:id="ps2013-008-07-009-085.u3.p15.s1.w7" lemma="," pos="PUNCT" msd="UPosTag=PUNCT">,</pc>
      <w xml:id="ps2013-008-07-009-085.u3.p15.s1.w8" join="right"> <!-- the issue is here -->
         aby
         <w xml:id="ps2013-008-07-009-085.u3.p15.s1.w9" lemma="aby" pos="SCONJ" msd="UPosTag=SCONJ" norm="aby" />
         <w xml:id="ps2013-008-07-009-085.u3.p15.s1.w10" lemma="být" pos="AUX" msd="UPosTag=AUX|Mood=Cnd|Person=3|VerbForm=Fin" norm="by" />
      </w>
      <linkGrp targFunc="head argument" type="UD-SYN">
...
      </linkGrp>
   </s>
</seg>

TODO: