Closed matyaskopp closed 3 years ago
U+202F 2 0.00 1 0.01 NARROW NO-BREAK SPACE
This appears only in raw data
perl -CSD -p -e '$_="" unless $_ =~ s/\x{202F}/[NARROW NO-BREAK SPACE]/g;' ParlaMint-CZ/ParlaMint-CZ_2020-12-09-ps2017-076-01-001-001.xml
`
`
U+200B 10 0.00 2 0.02 ZERO WIDTH SPACE
perl -CSD -p -e '$_="" unless $_ =~ s/\x{200B}/[ZERO WIDTH SPACE]/g;' ParlaMint-CZ/ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.xml
<seg xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p17">2.[ZERO WIDTH SPACE] vysláním příslušníků rezortu Ministerstva obrany k posílení velitelských struktur NATO, EU a OSN nasazených v operacích těchto organizací a vyslání příslušníků rezortu Ministerstva obrany působících ve strukturách NATO, EU a OSN do operací pod vedením těchto organizací mimo území České republiky v celkovém počtu do 25 osob, a to na dobu od 1. ledna 2019 do 31. prosince 2020,</seg> ...
This character makes a mess in tokenization:
perl -CSD -p -e '$_="" unless $_ =~ s/\x{200B}/[ZERO WIDTH SPACE]/g;' ParlaMint-CZ/ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.ana.xml
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p17.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=ADP|AdpType=Prep|Case=Ins">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p18.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=ADP|AdpType=Prep|Case=Ins">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p19.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=ADP|AdpType=Prep|Case=Ins">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p21.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=CCONJ">[ZERO WIDTH SPACE]</w>
<w xml:id="ParlaMint-CZ_2018-06-01-ps2017-013-08-003-109.u111.p22.s1.w3" lemma="[ZERO WIDTH SPACE]" msd="UPosTag=NOUN">[ZERO WIDTH SPACE]</w>
U+00AD 92 0.00 78 0.73 SOFT HYPHEN
perl -CSD -p -e '$_="" unless $_ =~ s/\x{00AD}/[SOFT HYPHEN]/g;' ParlaMint-CZ/ParlaMint-CZ_2013-12-06-ps2013-002-02-002-008.xml
<seg xml:id="ParlaMint-CZ_2013-12-06-ps2013-002-02-002-008.u26.p2">No samozřejmě, že se nacházíme a projednáváme tento rozpočet v mimořádné situaci. Ale je třeba říci - a to tady zaznělo -, kdo tu situaci zavinil. A já si myslím, že jestliže tady hovoří teď zástupci ODS a zástupci TOP 09, pan poslanec Kalousek, pan předseda Stanjura, tak je to pokrytecké. Kdo to zavinil? Přece to byla jejich vláda, vláda Nečasova. A v té seděl pan poslanec Kalousek. A jestliže pan poslanec Kalousek dneska říká, že neměl dostatek času na to, aby se seznámil s tím rozpočtem, tak vždyť je to primárně, pane kolego, váš rozpočet! Vždyť vznikal za vás! Vláda Rusnokova ho nějak upravila [SOFT HYPHEN]-</seg>
U+200E <U+200E> 2 0.00 2 0.02 LEFT-TO-RIGHT MARK
perl -CSD -p -e '$_="" unless $_ =~ s/\x{200E}/[LEFT-TO-RIGHT MARK]/g;' ParlaMint-CZ/ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.xml
<seg xml:id="ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.u67.p9">Třetí věc - tedy jednak centrální nákupy, jednak pandemická legislativa - a třetí věc je otázka náhrad škod způsobených případně fyzickým či právnickým osobám v důsledku opatření, která byla zaváděna vládou. Tady se obávám, že vláda zvolila pštrosí taktiku, tzn. tvářit se, že se nic neděje, nic se stát nemůže, a strčit před tím hlavu do písku. Já toto spolu s KDU-ČSL nepovažuji za správný krok a naopak bych očekával, že vláda se bude snažit dělat všechno pro to, aby minimalizovala případné zmatky a soudní spory, které zde mohou nastat. Proto myslím, že je důležité znovu zopakovat a vyzvat vládu k tomu, aby v těchto otázkách, v těchto záležitostech nejenom prostřednictvím toho, co jsme slyšeli od nového předsedy Nejvyššího soudu pana doktora Angyalossy[LEFT-TO-RIGHT MARK]ho, vláda skutečně dala jasně najevo, že jsou tady nějaké principy, které lze dopředu definovat, ať už je to určit orgán, kam se mohou případně poškození obracet, ať už je to otázka nějakých online formulářů, ať už je to otázka nějaké metodiky. Protože samozřejmě tady platí to, že došlo k řadě kompenzací už v době nouzového stavu. Není možné potom případné náhrady dublovat. Ale tvářit se tak, že se nic neděje a k ničemu nedošlo, nepovažujeme za správné.</seg>
perl -CSD -p -e '$_="" unless $_ =~ s/\x{200E}/[LEFT-TO-RIGHT MARK]/g;' ParlaMint-CZ/ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.ana.xml
<w xml:id="ParlaMint-CZ_2020-07-09-ps2017-056-01-002-002.u67.p9.s4.w39" lemma="Angyalossy[LEFT-TO-RIGHT MARK]" msd="UPosTag=PROPN|Animacy=Anim|Case=Gen|Gender=Masc|NameType=Sur|Number=Sing|Polarity=Pos" join="right">Angyalossy[LEFT-TO-RIGHT MARK]ho</w>
patch invalid Unicode characters when XML is saved to be sure.