Closed albbas closed 8 years ago
Date: 2016-03-01 15:07:21 +0100
From: Lene Antonsen <
Dette er samme sak som er sendt som mail, men det er bedre å samle den her.
Vi har diskutert hvordan vi skal behandle klitika, og det er mange gode grunner til å behandle dem likt i Apertium (og ellers) uavhengig av samskriving eller særskriving.
Problemet er at for Apertium da behandler dem som compounds, og da blir ordet som klitika lener seg på, underlesning. Og dette ordet er syntaktisk viktigere enn pcle. Dette gjør at våre CG-regler ikke fungerer når de refererer til ordet som er i underlesninga => dårligere disambiguering i Apertium enn i gt.
Vi kan referere ved å legge til / (f.eks. 1/*), men det kan vi ikke gjøre med alle regler fordi vi kan treffe ord som virkerlig er Cmp. Vi kan heller ikke fjerne analyser fra underlesninger (men kanskje finnes det en syntaks for det?).
Vi må ha en felles diskusjon på hvordan vi skal løse dette. Problemet er størst ved sme-smn MT fordi vi der bruker sme-tekster skrevet på finsk side, med samskriving av klitika. På kort sikt kunne jeg tenke meg å endre i modify-tags.regex i sme/tools/mt/apertium/tagsets/ slik at clitictagger likevel blir overført som tagger til MT, og heller løse det for hvert enkelt språkpar.
På lengre sikt bør vi kanskje endre på gt-sida? FST og CG
Eksempel:
Riktig disambiugering i gt:
apertium-sme-smn$ echo 'Leatgo boahtán?' | smedis
"
Ingen disambiguering i apertium:
apertium-sme-smn$ echo 'Leatgo boahtán?' | apertium -d. sme-smn-disam
"
Date: 2016-03-01 17:16:00 +0100 From: Kevin Brubeck Unhammer <<unhammer+apertium>>
Då legg eg inn mitt svar òg her:
På kort sikt kunne jeg tenke meg å endre i modify-tags.regex i sme/tools/mt/apertium/tagsets/ slik at clitictagger likevel blir overført som tagger til MT, og heller løse det for hvert enkelt språkpar.
Eg er einig i at dette er den beste løysinga på kort sikt – det går jo ikkje an å forhalda seg til
"
og me vil sannsynlegvis måtta endra representasjonen litt uansett når me finn ei skikkeleg løysing.
Date: 2016-03-01 17:16:27 +0100 From: Kevin Brubeck Unhammer <<unhammer+apertium>>
På lengre sikt bør vi kanskje endre på gt-sida? FST og CG
Me snakka om dette i Tromsø, at leatgo bør vera eit fleirordsuttrykk som teknisk sett ikkje er som samansette ord, men bør delast i to kohortar før CG.
Då kan me òg ha ei generell og CG-basert disambiguering av fleirordsuttrykk før vanleg CG, slik at me kan la t.d. «3.» vera éin kohort
"<3.>" "3." A Ord
i visse kontekstar, og to
"<3>" "3" Num "<.>" "." PUNCT
i andre – noko som i dag er handtert av preprocess.
Date: 2016-03-01 17:17:37 +0100 From: Kevin Brubeck Unhammer <<unhammer+apertium>>
Eg ser for meg ei at den langsiktige løysinga er slik at analysatoren gir ut
"<3.>" "3." A Ord "<3.>" "." PUNCT "<.>" "3" Num "<3>"
og ein mwe-dis.cg3 seier noko sånt som
REMOVE Ord IF (0 PUNCT) (1 titlecase - Prop);
Etter mwe-dis.cg3 har me kanskje
"
som output, og så før den vanlege CG-en må me berre ha ein enkel og fullstendig språkuavhengig modul som endrar det til
"
ved å henta ordformer ut av lesingar og plassera hovudlesingar sist.
Eg trur ikkje det bør vera noko konflikt med vanleg bruk av underlesningar; dei har berre ikkje ordformar på underlesninga viss dei ikkje skal delast opp (ekte samansette ord).
Men finst det problem med denne løysinga? (Sånn utover at det kan bli utfordrande å få noko slikt til i analysatoren …)
Date: 2016-03-01 20:55:49 +0100
From: Jack Rueter <
(In reply to Kevin Brubeck Unhammer from comment #1)
Då legg eg inn mitt svar òg her:
På kort sikt kunne jeg tenke meg å endre i modify-tags.regex i sme/tools/mt/apertium/tagsets/ slik at clitictagger likevel blir overført som tagger til MT, og heller løse det for hvert enkelt språkpar.
Eg er einig i at dette er den beste løysinga på kort sikt – det går jo ikkje an å forhalda seg til
In the long run, however, we might have to climb out of this rut established by tradtion.
The morphology "go" needs to be labeled for the function it has. Actually, I see that it does two things: (1) it transforms a statement into a question. <there are 4 traditional types of sentences: statement, question, command, exclamation> (2) it immediately follows the focus of the question.
"
" "go" pcle I can see how (2) is associated with discourse, and its position in a clause usually helps us find the beginning of the clause, calling it a particle or clitic will hardly solve the problem. For many the term particle is another name for waste basket. The +Clt/go solution is a way of getting out of the rut. +Clt/go is essentially telling us that this is a critter all by itself. We are only failing to read out what we have coded into +Clt/go.
Are there more than TWO things that "go" does in sme? What does smn "vu" do?
Date: 2016-03-02 13:48:39 +0100
From: Lene Antonsen <
Se ogaå bz 2161: Foc/ge med positiv og negativ merke
Date: 2016-03-02 15:13:14 +0100
From: Lene Antonsen <
Jeg har nå endra i modify-tags.regex og gt2apertium.cg3relabel slik at clitictagger blir overført som tagger til MT. Slik ser det ut no:
apertium-sme-smn$ echo 'Leatgo boahtán?' | apertium -d. sme-smn-disam
"
og slik med to ord
apertium-sme-smn$ echo 'Leat go boahtán?' | apertium -d. sme-smn-disam
"
apertium-sme-smn$ echo 'Leatgo boahtán?' | apertium -d. sme-smn Láá-uv puáttám? apertium-sme-smn$ echo 'Leat go boahtán?' | apertium -d. sme-smn Láá-uv puáttám?
Comment to Jack: there is a qst on the pcle: "go" pcle qst
This issue was created automatically with bugzilla2github
Bugzilla Bug 2159
Date: 2016-03-01T15:07:21+01:00 From: Lene Antonsen <>
To: Lene Antonsen <>
CC: ftyers, lene.antonsen, linda.wiechetek, rueter.jack, sjur.n.moshagen, thomas.omma, trond.trosterud, unhammer+apertium
Blocker for: #2160 Last updated: 2016-10-12T23:57:33+02:00