EstSyntax / EstCG

Tools and resources for Estonian Constraint Grammar
1 stars 0 forks source link

Skript 'inforemover.pl' kustutab liiga palju? + kõrvalosalausete piiride määramine #3

Open soras opened 8 years ago

soras commented 8 years ago

1) Selline tähelepanek: skript 'inforemover.pl' paistab lisaks lisainfole kustutavat ka mitmeseid süntaktilisi märgendeid. Näide, sisendist:

"<10>"
        "10" L0 N card <?> digit @NN> @<NN @ADVL #10->3
"<miljonit>"
        "miljon" Lt N card sg part l @<Q #11->10
"<dollarit>"
        "dollar" Lt S com sg part @<Q #12->11
"<kahjutasu>"
        "kahju_tasu" L0 S com sg part @OBJ #13->3

jääb pärast perl 1reaks.pl | perl inforemover.pl rakendamist järgi:

"<10>"
        "10" L0 N card @ADVL #10->3
"<miljonit>"
        "miljon" Lt N card sg part l @<Q #11->10
"<dollarit>"
        "dollar" Lt S com sg part @<Q #12->11
"<kahjutasu>"
        "kahju_tasu" L0 S com sg part @OBJ #13->3

ehk siis - esimese sõna analüüsidest eemaldatakse märgendid @NN> @<NN.

2) Lisaks üks küsimus skripti 'inforemover.pl' kohta: millistel juhtudel on tarvis kõrvalosalausete piiride "<{>" ja "<}>" kustutamist? Kas saaks mingi näite lausest, mille puhul lisatakse analüüsi käigus kõrvalosalausete piirid?

soras commented 8 years ago

Uurisin vahepeal Kadrilt küsimuse 2) kohta ning katsetamise käigus selgus, et praegusel juhul ei toimugi kõrvalosalausepiiride määramist. Nt lauses "Kunagi viisteist aastat tagasi, kui ta oli veel Tallinna Mererajooni plaanikomitee esimees, tegin talle märkuse, et miks ta tuleb tossudega linnavalitsuse ette." peaksid "kui ta oli ... esimees" ja "et miks ta tuleb ... ette" olema kõrvalosalause märgenditega ümbritsetud, aga praegune töötlusahel neid piire ei lisa. Kas see mõjutab kuidagi ka analüüsi kvaliteeti või ongi kõrvalosalausepiiride määramine iganenud analüüsisamm, mida pole enam tarvis?

kailimp commented 7 years ago

inforemover.pl oli möeldud puudepanga jaoks ning eeldati, et sisend ongi ühene. Mõte oli selles, et igasugune rektsiooni lisainfo on väga oluline parseri sisemiseks tööks, kuid lõppkasutajat võib see pigem segada. Samuti raskendas tohutu märgendite hulk automaatset võrdlemist.

kailimp commented 7 years ago

Kui puudepanka (inforem kujul) on vaja automaatselt töödelda, siis sellele saab lihtsustatud osalausepiirid lisada reeglite clb2inforemile.rul abil vislcg3 -g clbinforemile.rul < $file > $newname

soras commented 7 years ago

Ok, 'inforemover.pl' kasutuskontekst nüüd selgem, aitäh. Kas skript "clbinforemile.rul" lisab sama loogika järgi osalausepiirid nagu "clo.rul"? Minu algne küsimus oli pigem kõrvalosalausepiiride kohta ("<{>" ja "<}>") -- neid praegu vist kusagil ei lisata (?), kuigi skript 'inforemover.pl' tegeleb nende kustutamisega. Kas neid ei lisata siis seetõttu, et polegi enam vaja (ei anna analüüsi kvaliteedile piisavalt juurde)?