giellalt / bugzilla-dummy

0 stars 0 forks source link

Behandling av klitika og underlesninger i CG (Bugzilla Bug 2159) #398

Closed albbas closed 8 years ago

albbas commented 8 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2159

Date: 2016-03-01T15:07:21+01:00 From: Lene Antonsen <> To: Lene Antonsen <> CC: ftyers, lene.antonsen, linda.wiechetek, rueter.jack, sjur.n.moshagen, thomas.omma, trond.trosterud, unhammer+apertium

Blocker for: #2160 Last updated: 2016-10-12T23:57:33+02:00

albbas commented 8 years ago

Comment 11204

Date: 2016-03-01 15:07:21 +0100 From: Lene Antonsen <>

Dette er samme sak som er sendt som mail, men det er bedre å samle den her.

Vi har diskutert hvordan vi skal behandle klitika, og det er mange gode grunner til å behandle dem likt i Apertium (og ellers) uavhengig av samskriving eller særskriving.

Problemet er at for Apertium da behandler dem som compounds, og da blir ordet som klitika lener seg på, underlesning. Og dette ordet er syntaktisk viktigere enn pcle. Dette gjør at våre CG-regler ikke fungerer når de refererer til ordet som er i underlesninga => dårligere disambiguering i Apertium enn i gt.

Vi kan referere ved å legge til / (f.eks. 1/*), men det kan vi ikke gjøre med alle regler fordi vi kan treffe ord som virkerlig er Cmp. Vi kan heller ikke fjerne analyser fra underlesninger (men kanskje finnes det en syntaks for det?).

Vi må ha en felles diskusjon på hvordan vi skal løse dette. Problemet er størst ved sme-smn MT fordi vi der bruker sme-tekster skrevet på finsk side, med samskriving av klitika. På kort sikt kunne jeg tenke meg å endre i modify-tags.regex i sme/tools/mt/apertium/tagsets/ slik at clitictagger likevel blir overført som tagger til MT, og heller løse det for hvert enkelt språkpar.

På lengre sikt bør vi kanskje endre på gt-sida? FST og CG

Eksempel:

Riktig disambiugering i gt:

apertium-sme-smn$ echo 'Leatgo boahtán?' | smedis "" "leat" V IV Ind Prs Pl3 Qst @+FAUXV "<boahtán>" "boahtit" V IV PrfPrc @-FMAINV "<?>" "?" CLB

Ingen disambiguering i apertium:

apertium-sme-smn$ echo 'Leatgo boahtán?' | apertium -d. sme-smn-disam "" "go" pcle "Lea" np ant f pl nom "go" pcle "Lea" np pl nom "go" pcle "leat" vblex iv indic pres conneg "go" pcle "leat" vblex iv indic pres p1 pl "go" pcle "leat" vblex iv indic pres p2 sg "go" pcle "leat" vblex iv indic pres p3 pl "go" pcle "leat" vblex iv inf "<boahtán>" "boahtit" vblex iv prfprc @X MAP:7889:realverbX ;"boahtit" vblex iv indic pret conneg REMOVE:4344:muhtoNotConNeg "<?>" "?" sent

albbas commented 8 years ago

Comment 11205

Date: 2016-03-01 17:16:00 +0100 From: Kevin Brubeck Unhammer <<unhammer+apertium>>

Då legg eg inn mitt svar òg her:

På kort sikt kunne jeg tenke meg å endre i modify-tags.regex i sme/tools/mt/apertium/tagsets/ slik at clitictagger likevel blir overført som tagger til MT, og heller løse det for hvert enkelt språkpar.

Eg er einig i at dette er den beste løysinga på kort sikt – det går jo ikkje an å forhalda seg til

"" "go" pcle "Lea" np ant f pl nom "go" pcle "Lea" np pl nom "go" pcle "leat" vblex iv indic pres conneg "go" pcle "leat" vblex iv indic pres p1 pl "go" pcle "leat" vblex iv indic pres p2 sg "go" pcle "leat" vblex iv indic pres p3 pl "go" pcle "leat" vblex iv inf

og me vil sannsynlegvis måtta endra representasjonen litt uansett når me finn ei skikkeleg løysing.

albbas commented 8 years ago

Comment 11206

Date: 2016-03-01 17:16:27 +0100 From: Kevin Brubeck Unhammer <<unhammer+apertium>>

På lengre sikt bør vi kanskje endre på gt-sida? FST og CG

Me snakka om dette i Tromsø, at leatgo bør vera eit fleirordsuttrykk som teknisk sett ikkje er som samansette ord, men bør delast i to kohortar før CG.

Då kan me òg ha ei generell og CG-basert disambiguering av fleirordsuttrykk før vanleg CG, slik at me kan la t.d. «3.» vera éin kohort

"<3.>" "3." A Ord

i visse kontekstar, og to

"<3>" "3" Num "<.>" "." PUNCT

i andre – noko som i dag er handtert av preprocess.

albbas commented 8 years ago

Comment 11207

Date: 2016-03-01 17:17:37 +0100 From: Kevin Brubeck Unhammer <<unhammer+apertium>>

Eg ser for meg ei at den langsiktige løysinga er slik at analysatoren gir ut

"<3.>" "3." A Ord "<3.>" "." PUNCT "<.>" "3" Num "<3>"

og ein mwe-dis.cg3 seier noko sånt som

REMOVE Ord IF (0 PUNCT) (1 titlecase - Prop);

Etter mwe-dis.cg3 har me kanskje

"" "vera" V Pres "<3.>" "." PUNCT "<.>" "3" Num "<3>" "" …

som output, og så før den vanlege CG-en må me berre ha ein enkel og fullstendig språkuavhengig modul som endrar det til

"" "vera" V Pres "<3>" "3" Num "<3>" "<.>" "." PUNCT "" …

ved å henta ordformer ut av lesingar og plassera hovudlesingar sist.

Eg trur ikkje det bør vera noko konflikt med vanleg bruk av underlesningar; dei har berre ikkje ordformar på underlesninga viss dei ikkje skal delast opp (ekte samansette ord).

Men finst det problem med denne løysinga? (Sånn utover at det kan bli utfordrande å få noko slikt til i analysatoren …)

albbas commented 8 years ago

Comment 11208

Date: 2016-03-01 20:55:49 +0100 From: Jack Rueter <>

(In reply to Kevin Brubeck Unhammer from comment #1)

Då legg eg inn mitt svar òg her:

På kort sikt kunne jeg tenke meg å endre i modify-tags.regex i sme/tools/mt/apertium/tagsets/ slik at clitictagger likevel blir overført som tagger til MT, og heller løse det for hvert enkelt språkpar.

Eg er einig i at dette er den beste løysinga på kort sikt – det går jo ikkje an å forhalda seg til

In the long run, however, we might have to climb out of this rut established by tradtion.

The morphology "go" needs to be labeled for the function it has. Actually, I see that it does two things: (1) it transforms a statement into a question. <there are 4 traditional types of sentences: statement, question, command, exclamation> (2) it immediately follows the focus of the question.

"" "go" pcle I can see how (2) is associated with discourse, and its position in a clause usually helps us find the beginning of the clause, calling it a particle or clitic will hardly solve the problem. For many the term particle is another name for waste basket. The +Clt/go solution is a way of getting out of the rut. +Clt/go is essentially telling us that this is a critter all by itself. We are only failing to read out what we have coded into +Clt/go.

Are there more than TWO things that "go" does in sme? What does smn "vu" do?

albbas commented 8 years ago

Comment 11212

Date: 2016-03-02 13:48:39 +0100 From: Lene Antonsen <>

Se ogaå bz 2161: Foc/ge med positiv og negativ merke

albbas commented 8 years ago

Comment 11216

Date: 2016-03-02 15:13:14 +0100 From: Lene Antonsen <>

Jeg har nå endra i modify-tags.regex og gt2apertium.cg3relabel slik at clitictagger blir overført som tagger til MT. Slik ser det ut no:

apertium-sme-smn$ echo 'Leatgo boahtán?' | apertium -d. sme-smn-disam "" "leat" vblex iv indic pres p3 pl qst @+FAUXV SELECT:6653:vfin MAP:7581:+FAUXVCop ; "Lea" np ant f pl nom qst REMOVE:2354:confProp ; "Lea" np pl nom qst REMOVE:2354:confProp ; "leat" vblex iv indic pres conneg qst REMOVE:4345:muhtoNotConNeg ; "leat" vblex iv inf qst SELECT:6653:vfin ; "leat" vblex iv indic pres p2 sg qst @+FAUXV SELECT:6653:vfin MAP:7581:+FAUXVCop REMOVE:11275:allSg2leat ; "leat" vblex iv indic pres p1 pl qst @+FAUXV SELECT:6653:vfin MAP:7581:+FAUXVCop REMOVE:11918:Pl1 "<boahtán>" "boahtit" vblex iv prfprc @-FMAINV MAP:7666:-FMAINV ; "boahtit" vblex iv indic pret conneg REMOVE:4345:muhtoNotConNeg "<?>" "?" sent

og slik med to ord apertium-sme-smn$ echo 'Leat go boahtán?' | apertium -d. sme-smn-disam "" "leat" vblex iv indic pres p3 pl @+FAUXV SELECT:3750:vfingo MAP:7581:+FAUXVCop ; "Lea" np ant f pl nom REMOVE:2354:confProp ; "Lea" np pl nom REMOVE:2354:confProp ; "leat" vblex iv inf SELECT:3750:vfingo ; "leat" vblex iv indic pres conneg SELECT:3750:vfingo ; "leat" vblex iv indic pres p2 sg @+FAUXV SELECT:3750:vfingo MAP:7581:+FAUXVCop REMOVE:11275:allSg2leat ; "leat" vblex iv indic pres p1 pl @+FAUXV SELECT:3750:vfingo MAP:7581:+FAUXVCop REMOVE:11918:Pl1 "" "go" pcle qst SELECT:5259:standQst ; "go" cnjsub SELECT:5259:standQst "<boahtán>" "boahtit" vblex iv prfprc @-FMAINV MAP:7666:-FMAINV ; "boahtit" vblex iv indic pret conneg REMOVE:4345:muhtoNotConNeg "<?>" "?" sent

apertium-sme-smn$ echo 'Leatgo boahtán?' | apertium -d. sme-smn Láá-uv puáttám? apertium-sme-smn$ echo 'Leat go boahtán?' | apertium -d. sme-smn Láá-uv puáttám?

Comment to Jack: there is a qst on the pcle: "go" pcle qst