clarin-eric / ParlaMint

ParlaMint: Comparable Parliamentary Corpora
https://clarin-eric.github.io/ParlaMint/
41 stars 52 forks source link

LV: unrecognized transcriber comments inside text #682

Open matyaskopp opened 1 year ago

matyaskopp commented 1 year ago

I am sorry for not noticing this in my first inspection of your corpus. There is a considerable amount of unrecognized transcriber comments (6.3. Transcriber comments) inside the text, just a sample from one file:

<seg xml:id="ParlaMint-LV_2014-11-04-PT12-264-U1-P6">Es lūdzu visus piecelties Latvijas Republikas valsts himnai! (Skan himna.)</seg>
<seg xml:id="ParlaMint-LV_2014-11-04-PT12-264-U2-P16">Paldies. Veiksmi jums! (Aplausi.)</seg>
<seg xml:id="ParlaMint-LV_2014-11-04-PT12-264-U3-P9">Tātad, lai ievēlētā pagaidu Mandātu, ētikas un iesniegumu komisija varētu sagatavot ziņojumu un lēmuma projektu “Par 12.Saeimas deputātu pilnvaru apstiprināšanu”, ir nepieciešams pārtraukums. Un ir saņemts priekšlikums - izsludināt šo pārtraukumu uz pusotru stundu. Vai kādam ir iebildumi? (No zāles dep. J.Urbanovičs: “Paspēsim?”) Pēc tās pieredzes, kas, konsultējoties ar iepriekšējiem šādu situāciju pārstāvjiem, ir bijusi iepriekš, minimālais laiks ir stunda un 10 minūtes vai stunda un 20 minūtes. Tātad pusotra stunda varētu būt pietiekams laiks. Nepieciešamības gadījumā mēs varētu... (No zāles dep. I.Parādnieks: “Līdz 12.00!”) Jā, mēs varētu to noteikt līdz pulksten 12.00. Tātad stunda un 40 minūtes.</seg>
<seg xml:id="ParlaMint-LV_2014-11-04-PT12-264-U3-P14">(Pārtraukums.)</seg>
<seg xml:id="ParlaMint-LV_2014-11-04-PT12-264-U4-P2">(Pārtraukums.)</seg>

It would be great if you would find time to fix this in the next release.

TomazErjavec commented 1 year ago

Just a note that if this will be fixed, we need to try and arrange for a new MTed LV corpus, beause the old one will longer be valid.