giellalt / lang-smj

Finite state and Constraint Grammar based analysers and proofing tools + language resources for Lule Sámi
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 0 forks source link

Cmp-tagger: problemer med Cmp/Sh ( #95

Closed albbas closed 4 days ago

albbas commented 3 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2695

Date: 2020-10-23T10:23:28+02:00 From: Lene Antonsen <> To: Inga Lill Sigga Mikkelsen <> CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2020-10-23T17:03:12+02:00

albbas commented 3 years ago

Comment 14073

Date: 2020-10-23 10:23:28 +0200 From: Lene Antonsen <>

Cmp-tagger: problemer med Cmp/Sh

I MT er det problematisk å lage dynamiske sammensetninger, pga. +Cmp/Sh taggen.

echo boradangirji |apertium -d. sme-smj bårådibmegirjje Her ville bårådimgirjje vært bedre.

boradangirji boradit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#girji+N+Sg+Nom bårådibmegirjje bårådit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#girjje+N+Sg+Nom bårådimgirjje bårådit+V+TV+Der/NomAct+N+Cmp/Sh+Cmp#girjje+N+Sg+Nom

Men det er bårådibmegirjje og boradangirji som harmonerer når det gjelder tagger. For å få bårådimgirjje må Cmp/SgNom endres til Cmp/Sh, noe som er mulig i MT, men problemet er at dette skal gjelde bare ulikestavelsesverb, NomAct-substantiver avledet fra ulikestavelsesverb og firestavelsessubstantiver, og da krever det en større ommøblering av bidixfila, hvor man har egne stier for disse verbene og substantivene.

På nordsamisk er ikke boradeapmigirji mulig, derfor er Cmp/Sh default og ikke uttrykt i tagger. Også på lulesamisk er Cmp/Sh default, men den lange formen er også mulig. Hvis det ikke hadde vært samme tagger, så kunne man brukt +Use/NG, dvt. kunne man ha +Cmp/Sh som en tilleggstagg i analysen, men som ikke er obligatorisk i genereringa.

En annen mulighet er å endre sme, slik at taggene er som i smj, men i MT vil det da være problemer hvis innputt er et tostavelsesverb og output er et trestavelsesverb, eller motsatt, noe som ofte er tilfellet.

albbas commented 3 years ago

Comment 14074

Date: 2020-10-23 10:39:27 +0200 From: Lene Antonsen <>

hvor man har egne stier for disse verbene og substantivene. skulle være => hvor man må lage egne stier for disse verbene og substantivene.

albbas commented 3 years ago

Comment 14077

Date: 2020-10-23 11:00:34 +0200 From: Sjur Nørstebø Moshagen <>

Ein måte å gjera dette på er ved å gjera alle taggane for samansetjingsform (+Cmp/SgNom, +Cmp/Sh, osb) valfrie ved generering, og fjerna dei frå analysen som blir sendt til generatoren. Då vil ein få alle former.

Deretter, om ein gjev ulik vekt til dei, slik at +Cmp/SgNom har høgare vekt enn +Cmp/Sh, og ein alltid vel versjonen med lågast vekt vil ein få +Cmp/Sh om det finst ei slik form, men +Cmp/SgNom om det ikkje finst. Det vil òg gjera det lett å handtera skilnader mellom språka når det gjeld val av kasus (Nom vs Gen vs GenPl).

Dette må testast ut, men for meg ser det ut til å kunna gje dei resultata vi vil ha.

albbas commented 3 years ago

Comment 14081

Date: 2020-10-23 17:01:45 +0200 From: Lene Antonsen <>

For Cmp/Sh: Kunne man la default typen være umarkert, og heller legge til tagg for den som ikke er vanlig, feks. Cmp/Long?

Når det gjelder å gjøre alle Cmp-taggene ikke-obligatoriske, er jeg litt mer skeptisk. Jeg tror at de samiske språkene for en stor del følger samme sammensetningsregler for +Cmp/SgNom og +Cmp/SgGen, f.eks. ietniepermisjovne vs. ietniengïele, maananvåågne, Når det gjelder Pl+Gen + Sg+Gen så kunne man evt. lage transferregel som viser til semtagg for mennesker, hvis det er forskjell mellom språkene. Det er problematisk å ikke ha styring på det, fordi f.eks. mánná, kan lage sammensetning både som mánná-, máná- og mánáid-.

albbas commented 3 years ago

Comment 14082

Date: 2020-10-23 17:03:12 +0200 From: Lene Antonsen <>

Presisering: For Cmp/Sh: Kunne man la default typen bare ha Cmp/SgNom, og heller legge til en ekstra tagg for den som ikke er vanlig, feks. Cmp/SgNom+Cmp/Long?

ilm024 commented 4 days ago

Denne er vel løst @leneantonsen?

bårådimgirjje bårådit+V+TV+Der/NomAct+N+Cmp/SgNom+Cmp#girjje+N+Sg+Nom 0,000000 bårådibmegirjje bårådit+V+TV+Der/NomAct+N+Cmp/Long+Cmp/SgNom+Cmp#girjje+N+Sg+Nom 0,000000

Jeg lukker buggen.