clarin-eric / ParlaMint

ParlaMint: Comparable Parliamentary Corpora
https://clarin-eric.github.io/ParlaMint/
51 stars 53 forks source link

IT feedback #490

Closed matyaskopp closed 1 year ago

matyaskopp commented 2 years ago

@atomm, @robertobartolini, @valeq, Nice work. I have a few observations:

missing information on which tool was used for NER

https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT.ana.xml#L153-L164

         <appInfo>
            <application version="1" ident="app-stanza">
               <label>Stanza</label>
               <desc xml:lang="en">
                  <ref target="https://stanfordnlp.github.io/stanza/index.html">Stanza</ref>: a jointly trained neural tagger, lemmatizer and dependency parser. Pretrained model based on the italian-isdt-ud-2.5 treebank</desc>
            </application>
            <application version="1" ident="conll-U2TEIXML">
               <label>CoNLL-U 2 TEI XML</label>
               <desc xml:lang="en">
                  <ref target="http://conllu2teixml">CoNLL-U 2 TEI XML</ref>: converter from CoNLL-U format to (ParlaClarin/ParlaMint) Tei XML Format</desc>
            </application>
         </appInfo>

parla.legislature taxonomy incomplete

Part of parla.legislature is missing, it is not a problem in v3.0, but in v3.1, we plan to merge all common taxonomies of the same type into one with all translations. So we would miss some translations.

sample contains XML files that are not included in teiCorpus

eg: ParlaMint-IT_2013-12-28-LEG17-upper-Sed-158.xml

meeting/sitting confusion

Are you encoding in one file meeting: https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana.xml#L3

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0"
     ana="#parla.meeting.regular #reference"
     xml:id="ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana"
     xml:lang="it">

or sitting: (https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana.xml#L15)

<meeting ana="#parla.upper">Senato</meeting>
<meeting ana="#parla.upper #parla.term #LEG.17" n="17-upper">17 Legislatura</meeting>
<meeting ana="#parla.upper #parla.sitting" n="462-upper">462 Seduta</meeting>

https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana.xml#L138

<setting>
  <name type="address">Piazza Madama, 11</name>
  <name type="city">Roma</name>
  <name key="IT" type="country">Italia</name>
  <date ana="#parla.sitting" when="2015-06-10">10.06.2015</date>
</setting>

some utterances are marked as note

I have found some utterances at the beginning of speeches that should be marked as utterances I guess.

source: https://www.senato.it/japp/bgt/showdoc/frame.jsp?tipodoc=Resaula&leg=17&id=0925064&part=doc_dc-ressten_rs-gentit_spv-intervento_santangelom5s

https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.xml#L153-L154

            <note type="speaker">SANTANGELO (M5S)</note>
            <u ana="#regular"
               who="#SantangeloVincenzo"
               xml:id="ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.u2">
               <note>Domando di parlare.</note>
               <note>PRESIDENTE. Ne ha facoltà.</note>
               <seg xml:id="ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.seg2">Signora Presidente, chiedo la votazione del processo verbale, previa verifica del numero legale. Verifica del numero legale</seg>
            </u>

an organization reference should be in passive in opposition relation

There should be an organization, not event in relation/@passive:

      <relation active="#group.LN-Aut #group.M5S.1"
                from="2013-04-28"
                name="opposition"
                passive="#GOV.LETTA.1"
                to="2013-11-19"/>

you can encode it this way to preserve the same information:

      <relation active="#group.LN-Aut #group.M5S.1"
                from="2013-04-28"
                name="opposition"
                passive="#GOV"
                ana="#GOV.LETTA.1"
                to="2013-11-19"/>
atomm commented 2 years ago

@atomm, @robertobartolini, @valeq, Nice work. I have a few observations:

missing information on which tool was used for NER

  • [ ] NER in the application description

FIXED

https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT.ana.xml#L153-L164

         <appInfo>
            <application version="1" ident="app-stanza">
               <label>Stanza</label>
               <desc xml:lang="en">
                  <ref target="https://stanfordnlp.github.io/stanza/index.html">Stanza</ref>: a jointly trained neural tagger, lemmatizer and dependency parser. Pretrained model based on the italian-isdt-ud-2.5 treebank</desc>
            </application>
            <application version="1" ident="conll-U2TEIXML">
               <label>CoNLL-U 2 TEI XML</label>
               <desc xml:lang="en">
                  <ref target="http://conllu2teixml">CoNLL-U 2 TEI XML</ref>: converter from CoNLL-U format to (ParlaClarin/ParlaMint) Tei XML Format</desc>
            </application>
         </appInfo>

parla.legislature taxonomy incomplete

  • [ ] parla.legislature

FIXED

Part of parla.legislature is missing, it is not a problem in v3.0, but in v3.1, we plan to merge all common taxonomies of the same type into one with all translations. So we would miss some translations.

sample contains XML files that are not included in teiCorpus

  • [ ] remove/include not connected files

FIXED

eg: ParlaMint-IT_2013-12-28-LEG17-upper-Sed-158.xml

meeting/sitting confusion

  • [ ] meeting/sitting

FIXED

Are you encoding in one file meeting: https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana.xml#L3

<?xml version="1.0" encoding="UTF-8"?>
<TEI xmlns="http://www.tei-c.org/ns/1.0"
     ana="#parla.meeting.regular #reference"
     xml:id="ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana"
     xml:lang="it">

or sitting: (https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana.xml#L15)

<meeting ana="#parla.upper">Senato</meeting>
<meeting ana="#parla.upper #parla.term #LEG.17" n="17-upper">17 Legislatura</meeting>
<meeting ana="#parla.upper #parla.sitting" n="462-upper">462 Seduta</meeting>

https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.ana.xml#L138

<setting>
  <name type="address">Piazza Madama, 11</name>
  <name type="city">Roma</name>
  <name key="IT" type="country">Italia</name>
  <date ana="#parla.sitting" when="2015-06-10">10.06.2015</date>
</setting>

some utterances are marked as note

  • [ ] utterance or note?

I will look into it and see if a better encoding can be done. This is largely due to poor encoding in the original source files. However it is limited to the introduction of a speaker by the President or the President giving the floor to a speaker as in the examples spotted, but does not affect substantial speeches.

I have found some utterances at the beginning of speeches that should be marked as utterances I guess.

source: https://www.senato.it/japp/bgt/showdoc/frame.jsp?tipodoc=Resaula&leg=17&id=0925064&part=doc_dc-ressten_rs-gentit_spv-intervento_santangelom5s

https://github.com/atomm/ParlaMint/blob/cbdda505abd115ca108565bb389ca4dacac838ff/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.xml#L153-L154

            <note type="speaker">SANTANGELO (M5S)</note>
            <u ana="#regular"
               who="#SantangeloVincenzo"
               xml:id="ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.u2">
               <note>Domando di parlare.</note>
               <note>PRESIDENTE. Ne ha facoltà.</note>
               <seg xml:id="ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.seg2">Signora Presidente, chiedo la votazione del processo verbale, previa verifica del numero legale. Verifica del numero legale</seg>
            </u>

an organization reference should be in passive in opposition relation

  • [ ] passive = #ORGANIZATIONREF

FIXED

There should be an organization, not event in relation/@passive:

      <relation active="#group.LN-Aut #group.M5S.1"
                from="2013-04-28"
                name="opposition"
                passive="#GOV.LETTA.1"
                to="2013-11-19"/>

you can encode it this way to preserve the same information:

      <relation active="#group.LN-Aut #group.M5S.1"
                from="2013-04-28"
                name="opposition"
                passive="#GOV"
                ana="#GOV.LETTA.1"
                to="2013-11-19"/>
matyaskopp commented 2 years ago

I will look into it and see if a better encoding can be done. This is largely due to poor encoding in the original source files. However it is limited to the introduction of a speaker by the President or the President giving the floor to a speaker as in the examples spotted, but does not affect substantial speeches

yes, but sometimes there is an additional information:

LUMIA (PD). Domando di parlare per dichiarazione di voto. PRESIDENTE. Ne ha facoltà. LUMIA (PD). Signora Presidente, a scanso di equivoci, il Partito Democratico ritiene altrettanto gravi gli omicidi che si consumano in mare quanto quelli che si consumano sulla strada; quindi niente indulgenza, niente atteggiamento di sottomissione, naturalmente, rispetto a quel settore produttivo che riteniamo importante, strategico, decisivo, che va rivalorizzato rispetto a precedenti penalizzazioni. Ma non è questa la strada per farlo.

It can be encoded as any other speech, so the example above shows three speeches, not one speech with two notes.

matyaskopp commented 2 years ago

ParlaMint IT 2.1:

notes starting with Domando di parlare and number of occurrences:

      1 <note>Domando di parlare . PRESIDENTE. Ne ha facoltà.</note>
      1 <note>Domando di parlare anch'io, signor Presidente. PRESIDENTE. Senatore Tremonti, credo che dovremo riprendere il dibattito quando ci occuperemo dell'articolo 70.</note>
      1 <note>Domando di parlare da tanto tempo, Presidente.</note>
      1 <note>Domando di parlare in merito all'emendamento 8.1 per dare un sostegno.</note>
      1 <note>Domando di parlare in sostituzione della Capogruppo, senatrice Unterberger.</note>
      1 <note>Domando di parlare per annuncio di voto. Se può farlo il senatore Casson, penso di poterlo fare anch'io.</note>
      1 <note>Domando di parlare per dichiarazione di voto in dissenso dal mio Gruppo . PRESIDENTE. Ne prendo atto e le do la parola. COTTI (M5S). Signora Presidente, intervengo in dissenso dal mio Gruppo per ritirare la mia firma all'emendamento che non voterò.</note>
      1 <note>Domando di parlare per dichiarazione di voto in dissenso dal mio Gruppo! PRESIDENTE. Scusi, senatrice Bonfrisco, chiudo, anzi, annullo la votazione.</note>
      1 <note>Domando di parlare per dichiarazione di voto. (I senatori del Gruppo M5S e numerosi senatori del Gruppo FI-PdL XVII escono dall'Aula). PRESIDENTE. Ne ha facoltà.</note>
      1 <note>Domando di parlare per dichiarazione di voto. (Il senatore Ciampolillo chiede ripetutamente la parola).</note>
      1 <note>Domando di parlare per dichiarazione di voto. (Il senatore Paolo Romani si reca nei pressi dello scranno del senatore Barani per parlare con lui). PRESIDENTE. Ne ha facoltà. GUERRA (Art.1-MDP). Signora Presidente, la valutazione che il Gruppo Articolo 1-Movimento democratico e progressista esprimerà nei confronti del decreto-legge che oggi ci apprestiamo a convertire poggia su due premesse fondamentali. In primo luogo, siamo favorevoli ai vaccini. Li consideriamo, come già ricordato dalla senatrice Dirindin nel suo intervento, uno strumento indispensabile di prevenzione delle malattie infettive e di contenimento della morbilità e della mortalità. In secondo luogo, non pensiamo che la vaccinazione possa essere sempre ed esclusivamente affidata alla libera scelta dei cittadini. Nel campo delle malattie trasmissibili le scelte dei singoli hanno infatti conseguenze sulla collettività che devono essere tenute in considerazione e possono rendere necessario il ricorso a misure di coercizione della libertà individuale come sono gli obblighi vaccinali. Lo strumento dell'obbligo non deve, però, mai essere considerato come il solo strumento da adottare, neppure quando lo si consideri necessario in ragione di un alto rischio di contagio.</note>
      1 <note>Domando di parlare per dichiarazione di voto. (Si cambia la giacca e ne indossa una con i colori della bandiera della pace). PRESIDENTE. Ne ha facoltà. COTTI (M5S). Signor Presidente, colleghi, a nome del Movimento 5 Stelle annunzio con convinzione il voto favorevole... PRESIDENTE. Senatore, la pregherei di riprendere l'abbigliamento precedente. COTTI (M5S). Presidente, questa è una giacca. PRESIDENTE. Sì, ma aveva un'altra giacca prima. COTTI (M5S). Purtroppo ho avuto dei problemi. PRESIDENTE. La prego di rimettersi la giacca che aveva prima.</note>
      1 <note>Domando di parlare per dichiarazione di voto. Memore dei miei richiami.</note>
      1 <note>Domando di parlare per dichiarazione di voto. PRESIDENTE. Ne ha facoltà. CASSON (PD). Signor Presidente, intervengo per una dichiarazione di voto semplicissima, per ricordare a tutti in quest'Aula come, proprio per ovviare ai problemi e alle perplessità del senatore Giovanardi, sia stato inserito un comma, che sostituisce il precedente comma 9, in cui si prevede: «Nel caso di mancata presentazione del programma di cui al comma 6 entro il termine del 15 maggio 2013, ovvero di mancato rispetto del termine di completamento del predetto programma, il Governo, in attuazione dell'articolo 120 della Costituzione e nel rispetto dell'articolo 8 della legge 5 giugno 2003, n. 131, provvede in via sostitutiva al fine di assicurare piena esecuzione a quanto previsto dal comma 4. Nel caso di ricorso alla predetta procedura il Consiglio dei Ministri, sentita la Conferenza permanente per i rapporti tra lo Stato, le Regioni e le Province autonome di Trento e di Bolzano, nomina commissario la stessa persona per tutte le Regioni per le quali si rendono necessari gli interventi sostitutivi». Pertanto la perplessità è superata e il Partito Democratico voterà a favore di tale emendamento.</note>
      1 <note>Domando di parlare per dichiarazione di voto. PRESIDENTE. Ne ha facoltà.</note>
      1 <note>Domando di parlare per dichiarazione di voto. PRESIDENTE. No, senatore. La sede redigente non prevede le dichiarazioni di voto sui singoli articoli. C'è stata una valutazione, che è stata sottoposta a un'analisi, e, alla luce di quanto accaduto nella fase di formazione del nuovo Regolamento, sono previsti gli interventi del relatore e quello del Governo e le dichiarazioni di voto solamente in occasione del voto finale. Indìco la votazione nominale con scrutinio simultaneo dell'articolo 1.</note>
      1 <note>Domando di parlare per dichiarazione...</note>
      1 <note>Domando di parlare sull'ordine dei lavori, signor Presidente.</note>
      1 <note>Domando di parlare sull'ordine dei lavori, signora Presidente: mi scusi, ma è importante, e non si tratta di una critica.</note>
      1 <note>Domando di parlare sulla richiesta di sospensione, Presidente. Mi dica lei se è il momento opportuno.</note>
      1 <note>Domando di parlare, Presidente.</note>
      1 <note>Domando di parlare, per illustrare l'emendamento.</note>
      1 <note>Domando di parlare, se l'Assemblea mi consente di farlo.</note>
      1 <note>Domando di parlare, signor Presidente! PRESIDENTE. Facciamo svolgere la dichiarazione di voto al senatore Ferrari.</note>
      1 <note>Domando di parlare, signor Presidente. Desidero fare una considerazione in merito.</note>
      1 <note>Domando di parlare. (</note>
      1 <note>Domando di parlare. (Brusìo)</note>
      1 <note>Domando di parlare. (Numerosi senatori dei Gruppi M5S, LN-Aut e</note>
      1 <note>Domando di parlare. Ho chiesto la parola da due ore.</note>
      1 <note>Domando di parlare. È un'ora che alzo la mano.</note>
      1 <note>Domando di parlare</note>
      2 <note>Domando di parlare PRESIDENTE. Ne ha facoltà.</note>
      2 <note>Domando di parlare in dissenso dal mio Gruppo.</note>
      2 <note>Domando di parlare per dichiarazione di voto</note>
      2 <note>Domando di parlare! PRESIDENTE. Ne ha facoltà.</note>
      3 <note>Domando di parlare in dichiarazione di voto in dissenso dal mio Gruppo.</note>
      3 <note>Domando di parlare. PRESIDENTE. Ne ha facoltà.</note>
      8 <note>Domando di parlare per un richiamo al Regolamento.</note>
     13 <note>Domando di parlare per annuncio di voto.</note>
     15 <note>Domando di parlare per fatto personale.</note>
     22 <note>Domando di parlare per dichiarazione di voto in dissenso dal Gruppo.</note>
     41 <note>Domando di parlare sull'ordine dei lavori.</note>
    386 <note>Domando di parlare per dichiarazione di voto in dissenso dal mio Gruppo.</note>
   9209 <note>Domando di parlare per dichiarazione di voto.</note>
  17810 <note>Domando di parlare.</note>

notes starting with PRESIDENTE and number of occurrences (most frequent):

     56 <note>PRESIDENTE. È iscritto a parlare il senatore Liuzzi. Ne ha facoltà.</note>
     60 <note>PRESIDENTE.</note>
     63 <note>PRESIDENTE. È iscritto a parlare il senatore Gasparri. Ne ha facoltà.</note>
     69 <note>PRESIDENTE. È iscritto a parlare il senatore Uras. Ne ha facoltà.</note>
     70 <note>PRESIDENTE. È iscritto a parlare il senatore Candiani. Ne ha facoltà.</note>
     81 <note>PRESIDENTE. È iscritto a parlare il senatore Malan. Ne ha facoltà.</note>
  26251 <note>PRESIDENTE. Ne ha facoltà.</note>

other most frequent notes:

     27 <note>(*)</note>
     31 <note>Riprendiamo l'esame dell'articolo 1 del disegno di legge.</note>
     32 <note>Indìco la votazione nominale con scrutinio simultaneo dell'articolo 5.</note>
     35 <note>Passiamo all'esame degli articoli, nel testo approvato dalla Camera dei deputati.</note>
     36 <note>Passiamo all'esame degli articoli, nel testo proposto dalla Commissione.</note>
     39 <note>Dichiaro aperta la discussione.</note>
     39 <note>Passiamo all'esame degli articoli.</note>
     41 <note>bis</note>
     58 <note>Il Senato non approva.</note>
     59 <note>Votazione nominale con scrutinio simultaneo</note>
     63 <note>(Segue la votazione).</note>
     65 <note>(v. Allegato B).</note>
     68 <note>Passiamo all'esame dell'articolo 1 del disegno di legge.</note>
     86 <note>Indìco la votazione nominale con scrutinio simultaneo dell'articolo 4.</note>
     93 <note>Indìco la votazione nominale con scrutinio simultaneo dell'articolo 1.</note>
     98 <note>Indìco la votazione nominale con scrutinio simultaneo dell'articolo 3.</note>
    100 <note>Indìco la votazione nominale con scrutinio simultaneo dell'articolo 2.</note>
    112 <note>Dichiaro aperta la discussione generale.</note>
    136 <note>e della questione di fiducia</note>
    155 <note>.</note>
    188 <note>Chiediamo che la votazione venga effettuata a scrutinio simultaneo mediante procedimento elettronico. PRESIDENTE. Invito il senatore Segretario a verificare se la richiesta risulta appoggiata dal prescritto numero di senatori.</note>
    272 <note>(M5S)</note>
    299 <note>(La richiesta risulta appoggiata)</note>
    299 <note>e</note>
    332 <note>Passiamo alla votazione finale.</note>
    580 <note>Il Senato approva.</note>
    587 <note>(v. Allegato B)</note>
    591 <note>(Segue la votazione)</note>
   1611 <note>,</note>
atomm commented 1 year ago

I will look into it and see if a better encoding can be done. This is largely due to poor encoding in the original source files. However it is limited to the introduction of a speaker by the President or the President giving the floor to a speaker as in the examples spotted, but does not affect substantial speeches

yes, but sometimes there is an additional information:

LUMIA (PD). Domando di parlare per dichiarazione di voto. PRESIDENTE. Ne ha facoltà. LUMIA (PD). Signora Presidente, a scanso di equivoci, il Partito Democratico ritiene altrettanto gravi gli omicidi che si consumano in mare quanto quelli che si consumano sulla strada; quindi niente indulgenza, niente atteggiamento di sottomissione, naturalmente, rispetto a quel settore produttivo che riteniamo importante, strategico, decisivo, che va rivalorizzato rispetto a precedenti penalizzazioni. Ma non è questa la strada per farlo.

It can be encoded as any other speech, so the example above shows three speeches, not one speech with two notes.

apologies for late reaction.

You are right that there are many other cases where part of an utterance ends in a note in my current encoding.

How would you suggest to encode these cases more correctly?

Current encoding in the source file is equivalent to 0)

0)

 <u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u10">
          <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg26">Domando di parlare.</seg>
          <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg27">PRESIDENTE. Ne ha facoltà.</seg>
          <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg28">Signor Presidente, innanzitutto, pur amareggiato di questo mio primo intervento...</seg>
          ...
    </u>  

but seg27 is a speech by the chair, not #SchifaniRenato

Might it be a case of interrupted utterance? https://clarin-eric.github.io/ParlaMint/#sec-interruptions

1)

<u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u10">
        <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg26">Domando di parlare.
            <vocal type="interruption">
                <desc>PRESIDENTE. Ne ha facoltà.</desc>
            </vocal>Signor Presidente, innanzitutto, pur amareggiato di questo mio primo intervento...
        </seg> 
    </u>            

or 2)

    <u who="#SchifaniRenat" ana="#regular" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u10" next="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u12">Domando di parlare.</u>
    <u who="#?" ana="#regular #interrupting" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u11">PRESIDENTE. Ne ha facoltà.</u>
    <u who="#SchifaniRenato" ana="#regular" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u12" prev="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u10">Signor Presidente, innanzitutto, pur amareggiato di questo mio primo intervento...</u>```

or, as you suggested originally, three distinct speeches

3)

<u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u10">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg26">Domando di parlare.</seg>
    </u>
    <u ana="#chair" who="#?????" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u11">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg27">PRESIDENTE. Ne ha facoltà.</seg>
    </u>
    <u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u12">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg28">Signor Presidente, innanzitutto, pur amareggiato di questo mio primo intervento...</seg>
      ...
    </u>

In every case it would be quite laborious to split the original annotation in the source file but I will give it a try. In the last two cases, also the xml:id of the last president chairing should be stored along the annotation as it is not explicitly stated.

Which kind of annotation would you consider more correct and would suggest to try ?

Thanks

matyaskopp commented 1 year ago

I think that the most proper encoding is:

    <note type="speaker">SCHIFANI (PdL)</note>
    <u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u10">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg26">Domando di parlare.</seg>
    </u>
    <note type="speaker">PRESIDENTE</note>
    <u ana="#chair" who="#GrassoPietro" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u11">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg27">Ne ha facoltà.</seg>
    </u>
    <note type="speaker">SCHIFANI (PdL)</note>
    <u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u12">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg28">Signor Presidente, innanzitutto, pur amareggiato di questo mio primo intervento...</seg>
      ...
    </u>

The chair speaker is given at the beginning of the sitting, and no change is announced. PRESIDENTE should be a note.. The chairman's speech is expected - so it is not an interruption

atomm commented 1 year ago

I think that the most proper encoding is:

    <note type="speaker">SCHIFANI (PdL)</note>
    <u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u10">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg26">Domando di parlare.</seg>
    </u>
    <note type="speaker">PRESIDENTE</note>
    <u ana="#chair" who="#GrassoPietro" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u11">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg27">Ne ha facoltà.</seg>
    </u>
    <note type="speaker">SCHIFANI (PdL)</note>
    <u ana="#regular" who="#SchifaniRenato" xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.u12">
      <seg xml:id="ParlaMint-IT_2013-03-21-LEG17-Senato-sed-3.seg28">Signor Presidente, innanzitutto, pur amareggiato di questo mio primo intervento...</seg>
      ...
    </u>

The chair speaker is given at the beginning of the sitting, and no change is announced. PRESIDENTE should be a note.. The chairman's speech is expected - so it is not an interruption

I did the fix on "Domando di parlare"/"Ne ha facoltà" and committed the same (extended) sample. You can have a look once you have time.

matyaskopp commented 1 year ago

I did the fix on "Domando di parlare"/"Ne ha facoltà" and committed the same (extended) sample. You can have a look once you have time.

Thanks, it is nice.

I have spotted one more issue. I believe it will be all from my side.

speaker note PRESIDENTE

matyaskopp commented 1 year ago

speaker note PRESIDENTE

  • [ ] <note type="speaker">PRESIDENTE</note>

You sometimes encode the PRESIDENT note type as role not as speaker before utterance: https://github.com/atomm/ParlaMint/blob/c50f59aaa226cae7a0a7378510a355ab71b9ae53/Data/ParlaMint-IT/ParlaMint-IT_2015-06-10-LEG17-Senato-sed-462.xml#L252

<note type="role">PRESIDENTE</note>

should be

<note type="speaker">PRESIDENTE</note>

@TomazErjavec IT has one unresolved issue, so I haven't merged #364 pull request yet. I am suggesting:

Are you ok with it?

TomazErjavec commented 1 year ago

@matyaskopp, yes, I agree with the merge, as this is a very minor problem. But note that this is not something that should be changed once IT goes to MT, as notes are also translated. The only things we can change afterwards is metadata. So, I would not even make in issue out of it.

TomazErjavec commented 1 year ago

@matyaskopp, can we close this?