ufal / ParCzech

ParCzech is a project on compiling Czech parliamentary data into annotated corpora.
https://ufal.mff.cuni.cz/parczech
0 stars 1 forks source link

invalid unicode characters #121

Closed matyaskopp closed 3 years ago

matyaskopp commented 3 years ago

patch invalid Unicode characters when XML is saved to be sure.

matyaskopp commented 3 years ago

U+202F [NARROW NO-BREAK SPACE]

U+202F               2    0.00         1      0.01  NARROW NO-BREAK SPACE

This appears only in raw data

perl -CSD -p -e '$_="" unless $_ =~ s/\x{202F}/[NARROW NO-BREAK SPACE]/g;' ParlaMint-CZ/ParlaMint-CZ_2020-12-09-ps2017-076-01-001-001.xml

`

Proto musíme mít nějaký očkovací plán. Tady zaznělo, že se s ním seznámíme, nicméně ten plán, tak jak já jsem se díval, visí na stránkách Ministerstva zdravotnictví. Aspoň tam visí nějaká verze od 6. 12. Předpokládám, že většina z vás ji četla. V tom plánu je napsáno, co se bude dělat, kdy se bude dělat, jak se to bude dělat. Mě tam velmi zaujal § 15, kde se píše mimo jiné: "Karanténa u očkovaných osob. Na základě současného stavu vědeckého poznání..." Z 6. 12., web Ministerstva zdravotnictví, ten plán, můžu přesně citovat ten název. "Na základě současného stavu vědeckého poznání nelze zatím zcela přesně stanovit míru a délku ochrany po očkování. V[NARROW NO-BREAK SPACE]případě klinickými studiemi potvrzené vysoké imunity atd. atd. Pokud se očkovaný jedinec, který má zdokumentované a potvrzené očkování proti onemocnění devět (COVID-19?) dostane do epidemiologicky významného kontaktu s[NARROW NO-BREAK SPACE]osobou nakaženou COVID-19, nebude očkovanému jedinci nařízena karanténa." Za mě dobře. Očkovaný nebude muset být v karanténě. Teď akorát nevím, jak všem těm, kteří kvůli karanténě přicházejí o peníze, jak sportovcům, jak řadě dalších, kteří chtějí cestovat do zahraničí, budeme vysvětlovat, že holt budou muset počkat dva, tři, čtyři měsíce na očkovací látku, než pro ně tato výhoda bude.

`

matyaskopp commented 3 years ago

U+200B [ZERO WIDTH SPACE]

U+200B              10    0.00         2      0.02  ZERO WIDTH SPACE
perl -CSD -p -e '$_="" unless $_ =~ s/\x{200B}/[ZERO WIDTH SPACE]/g;' ParlaMint-CZ/ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.xml

<seg xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p17">2.[ZERO WIDTH SPACE] vysláním příslušníků rezortu Ministerstva obrany k posílení velitelských struktur NATO, EU a OSN nasazených v operacích těchto organizací a vyslání příslušníků rezortu Ministerstva obrany působících ve strukturách NATO, EU a OSN do operací pod vedením těchto organizací mimo území České republiky v celkovém počtu do 25 osob, a to na dobu od 1. ledna 2019 do 31. prosince 2020,</seg> ...

This character makes a mess in tokenization:

perl -CSD -p -e '$_="" unless $_ =~ s/\x{200B}/[ZERO WIDTH SPACE]/g;' ParlaMint-CZ/ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.ana.xml
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p17.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=ADP|AdpType=Prep|Case=Ins">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p18.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=ADP|AdpType=Prep|Case=Ins">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p19.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=ADP|AdpType=Prep|Case=Ins">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p21.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=CCONJ">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p22.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=NOUN">[ZERO WIDTH SPACE]</w>
matyaskopp commented 3 years ago

U+00AD [SOFT HYPHEN]

U+00AD  ­           92    0.00        78      0.73  SOFT HYPHEN
perl -CSD -p -e '$_="" unless $_ =~ s/\x{00AD}/[SOFT HYPHEN]/g;' ParlaMint-CZ/ParlaMint-CZ_2013-12-06-ps2013-002-02-002-008.xml

<seg xml:id="ParlaMint-CZ_2013-12-06-ps2013-002-02-002-008.u26.p2">No samozřejmě, že se nacházíme a projednáváme tento rozpočet v mimořádné situaci. Ale je třeba říci - a to tady zaznělo -, kdo tu situaci zavinil. A já si myslím, že jestliže tady hovoří teď zástupci ODS a zástupci TOP 09, pan poslanec Kalousek, pan předseda Stanjura, tak je to pokrytecké. Kdo to zavinil? Přece to byla jejich vláda, vláda Nečasova. A v té seděl pan poslanec Kalousek. A jestliže pan poslanec Kalousek dneska říká, že neměl dostatek času na to, aby se seznámil s tím rozpočtem, tak vždyť je to primárně, pane kolego, váš rozpočet! Vždyť vznikal za vás! Vláda Rusnokova ho nějak upravila [SOFT HYPHEN]-</seg>

matyaskopp commented 3 years ago

U+200E [LEFT-TO-RIGHT MARK]

U+200E  <U+200E>                 2        0.00         2          0.02  LEFT-TO-RIGHT MARK
perl -CSD -p -e '$_="" unless $_ =~ s/\x{200E}/[LEFT-TO-RIGHT MARK]/g;' ParlaMint-CZ/ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.xml

<seg xml:id="ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.u67.p9">Třetí věc - tedy jednak centrální nákupy, jednak pandemická legislativa - a třetí věc je otázka náhrad škod způsobených případně fyzickým či právnickým osobám v důsledku opatření, která byla zaváděna vládou. Tady se obávám, že vláda zvolila pštrosí taktiku, tzn. tvářit se, že se nic neděje, nic se stát nemůže, a strčit před tím hlavu do písku. Já toto spolu s KDU-ČSL nepovažuji za správný krok a naopak bych očekával, že vláda se bude snažit dělat všechno pro to, aby minimalizovala případné zmatky a soudní spory, které zde mohou nastat. Proto myslím, že je důležité znovu zopakovat a vyzvat vládu k tomu, aby v těchto otázkách, v těchto záležitostech nejenom prostřednictvím toho, co jsme slyšeli od nového předsedy Nejvyššího soudu pana doktora Angyalossy[LEFT-TO-RIGHT MARK]ho, vláda skutečně dala jasně najevo, že jsou tady nějaké principy, které lze dopředu definovat, ať už je to určit orgán, kam se mohou případně poškození obracet, ať už je to otázka nějakých online formulářů, ať už je to otázka nějaké metodiky. Protože samozřejmě tady platí to, že došlo k řadě kompenzací už v době nouzového stavu. Není možné potom případné náhrady dublovat. Ale tvářit se tak, že se nic neděje a k ničemu nedošlo, nepovažujeme za správné.</seg>

perl -CSD -p -e '$_="" unless $_ =~ s/\x{200E}/[LEFT-TO-RIGHT MARK]/g;' ParlaMint-CZ/ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.ana.xml
<w xml:id="ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.u67.p9.s4.w39" lemma="Angyalossy[LEFT-TO-RIGHT MARK]" msd="UPosTag=PROPN|Animacy=Anim|Case=Gen|Gender=Masc|NameType=Sur|Number=Sing|Polarity=Pos" join="right">Angyalossy[LEFT-TO-RIGHT MARK]ho</w>