clarin-eric / ParlaMint

ParlaMint: Comparable Parliamentary Corpora
https://clarin-eric.github.io/ParlaMint/
50 stars 53 forks source link

FR: Invalid chairman speech identification #806

Open matyaskopp opened 1 year ago

matyaskopp commented 1 year ago

There are suspiciously small amounts of chairman speeches, there are two files that do not have chairman speeches at all. Below is an example of the bug.

Source:

XML https://www.assemblee-nationale.fr/dyn/opendata/CRSANR5L15S2022O1N151.xml

<paragraphe valeur_ptsodj="1" ordinal_prise="1" id_preparation="2052525" ordre_absolu_seance="9" id_acteur="PA721824" id_mandat="PM723394" id_nomination_oe="-1" id_nomination_op="PM767299" code_grammaire="PAROLE_GENERIQUE" code_style="NORMAL" code_parole="PAROLE_1_1" sommaire="0" id_syceron="2783771" valeur="">
<orateurs>
<orateur>
<nom>M. le président</nom>
<id>721824</id>
<qualite/>
</orateur>
</orateurs>
<texte stime="604.49">La parole est à Mme Marie-Christine Verdier-Jouclas, rapporteure de la commission mixte paritaire.</texte>
</paragraphe>

alternative HTML https://www.assemblee-nationale.fr/dyn/15/comptes-rendus/seance/session-ordinaire-de-2021-2022/deuxieme-seance-du-mardi-08-fevrier-2022 image

Result:

<u who="#PA721824" xml:id="ParlaMint-FR_2022-02-08-O1151.u2" ana="#regular">
    <seg xml:id="ParlaMint-FR_2022-02-08-O1151.u2.1">La parole est à Mme Marie-Christine Verdier-Jouclas, rapporteure de la commission mixte paritaire.</seg>
</u>