giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

Overgenerering av VGen ( #291

Closed albbas closed 7 years ago

albbas commented 10 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1850

Date: 2014-04-08T13:53:04+02:00 From: Lene Antonsen <> To: Thomas Omma <> CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud

Last updated: 2017-10-05T08:02:03+02:00

albbas commented 10 years ago

Comment 9257

Date: 2014-04-08 13:53:04 +0200 From: Lene Antonsen <>

Jeg samler her en del stier som vi kan vurdere om er overgenereringer og derfor bør fjernes. Først ut er VGen av passive verb.

VGen er ikke fullstendig produktiv, N/S 2011 s. 67: Verbgenitiv brukes ikke av alle verb.

Vi har lagt til alle, også passiv, og det virker fremmed for meg, f.eks: borrojuvvo borrat+V+TV+Der/PassL+V+IV+VGen

Disse formene finnes i språket med annen analyse, så vi får ikke færre former til divvun ved å fjerne dem, men vi slipper VGen-analysen.

albbas commented 10 years ago

Comment 9258

Date: 2014-04-08 13:54:31 +0200 From: Lene Antonsen <>

Neste ut er Der/goahti av passive verb (Der/PassL)

borrojuvvogoahtit borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Inf borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Ind+Prs+Pl1

Finnes disse formene?

albbas commented 10 years ago

Comment 9259

Date: 2014-04-08 14:16:53 +0200 From: Lene Antonsen <>

For å begrense genereringa av VGen, må man bygge litt om på LEXICON NominalFormsV2, men her er flere former som jeg har lyst at vi skal se nærmere på, kanskje vi kan kutte hele leksikonet for Der/PassL?

VAbess og Ger, dvs:

borrojuvvokeahttá borrat+V+TV+Der/PassL+V+IV+VAbess borrojuvvohaga borrat+V+TV+Der/PassL+V+IV+VAbess

borrojuvvodettiin borrat+V+TV+Der/PassL+V+IV+Ger

albbas commented 10 years ago

Comment 9260

Date: 2014-04-08 14:22:56 +0200 From: Lene Antonsen <>

(In reply to comment #1)

Neste ut er Der/goahti av passive verb (Der/PassL)

borrojuvvogoahtit borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Inf borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Ind+Prs+Pl1

Finnes disse formene?

Søk i korpus viser at dette finnes:

Der/PassL V* IV Der/goahti

"" "go" CS @CVP #1->4 "<ođđa>" "ođas" A Attr @>N #2->3 "<arkiivačoavdda>" "arkiivačoavdda" N Sg Nom @SUBJ> #3->4 "<adnojuvvogoahtá>" "atnit" V Der/PassL V IV Der/goahti V Ind Prs Sg3 @FS-ADVL> #4->9 "<,>"

albbas commented 10 years ago

Comment 9261

Date: 2014-04-08 14:31:29 +0200 From: Lene Antonsen <>

(In reply to comment #2)

VAbess og Ger, dvs:

I korpus finner jeg ingen Ger, men jeg finner i lovtekster ordet 'áidojuvvokeahtes'

"" "beassat" V IV Ind Prs Pl3 @FS-OBJ #6->2 "<buhtadusovddasvástádusas>" "buhtadusovddasvástádus" N Sg Loc @<ADVL #7->6 "<vahágiin>" "vahát" N Pl Loc @<ADVL #8->6 "<áidojuvvokeahtes>" "áidut" V Der/PassL V IV VAbess A Attr @>N #9->10 "" "eana" N Pl Loc @<ADVL #10->6

albbas commented 10 years ago

Comment 9262

Date: 2014-04-08 14:33:34 +0200 From: Lene Antonsen <>

(In reply to comment #0)

VGen er ikke fullstendig produktiv, N/S 2011 s. 67: Verbgenitiv brukes ikke av alle verb.

Vi har lagt til alle, også passiv, og det virker fremmed for meg, f.eks: borrojuvvo borrat+V+TV+Der/PassL+V+IV+VGen

Jeg finner ingen PassL .*VGen i korpus.

albbas commented 10 years ago

Comment 9264

Date: 2014-04-08 16:50:05 +0200 From: Lene Antonsen <>

gt$ svn ci -m "Kommenterte ut NominalFormsV2 for passive verb, se bz 1850" sme/src/verb-sme-morph.txt Sending sme/src/verb-sme-morph.txt Transmitting file data . Committed revision 91973. Det vil si at Abess, Ger og VGen er utkommenterte.

Vi følger med på dette.

albbas commented 10 years ago

Comment 9265

Date: 2014-04-08 18:19:10 +0200 From: Lene Antonsen <>

Neste tema er imperativ for passive verb. I korp finner jeg ingen eksempler på at de eksisterer:

dsmeNorm: bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg1 bovdejuvvojehkon bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg2 bovdejuvvo <===== denne er lik formen for indikativ Prs bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg3 bovdejuvvojus bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg3 bovdejuvvojehkos bovdet+V+TV+Der/PassL+V+IV+Imprt+Du1 bovdejuvvojeahkku bovdet+V+TV+Der/PassL+V+IV+Imprt+Du1 bovdejuvvojeadnu bovdet+V+TV+Der/PassL+V+IV+Imprt+Du2 bovdejuvvojeahkki bovdet+V+TV+Der/PassL+V+IV+Imprt+Du3 bovdejuvvojehkoska bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojehkot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojednot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojeatnot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojeahkkot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl2 bovdejuvvojehket bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl3 bovdejuvvojehkoset

Jeg foreslår at jeg kommenterer dem også ut. Så få vi heller følge med.

albbas commented 10 years ago

Comment 9266

Date: 2014-04-08 18:31:42 +0200 From: Lene Antonsen <>

src$ svn ci -m "Kommenterte ut Imprt for passive verb, se bz 1850" verb-sme-morph.txt Sending verb-sme-morph.txt Transmitting file data . Committed revision 91986.

Dette er lett å reversere, alle utkommenteringene er merket med Bz 1850.

albbas commented 10 years ago

Comment 9267

Date: 2014-04-08 18:33:48 +0200 From: Lene Antonsen <>

Legger kopi til Linda, dette vil sannsynligvis har innvirkning på arbeid med grammatikkontrollprogrammet.

albbas commented 10 years ago

Comment 9374

Date: 2014-04-29 11:20:39 +0200 From: Linda Wiechetek <>

VGen former som skaper realworderrors er ganske vanlige. Jeg lurer også på en del ikke-passive verb-genitiver

f.eks. jeara jearrat+V+TV+VGen

eksempel: Man lahkai kvalitehtasihkkarastá Sámediggi ahte lea sámi buvtta man Sámediggi doarju, jeara NSR. (jeara -> jearrá)

f.eks. suidne suidnet+V+IV+VGen

Dás gal lea oalle stuorra mearkkašupmi, suidne lea čuohcan garrasit, go dát diggeášši leamas vuordimis, dál su noađđi lea gehppon olu, muitala Bakke. (suidne -> sutnje)

I de fleste tilfellene er det ikke bare VGen formen, men flere former som er mulig analyse, men om vi tar bort VGen formene der de ikke eksisterer, blir det mindre arbeid for grammatikkontroll.

Jeg lurer også på kombinasjonen av VGen og Foc/ba:

Jienasteddjiide sáhttá šaddat váttis áddet, mo olgeš- ja ovddádusbellodat sáhtiba ovddidit oktasaš sámepolitihkka jus dát bellodagat fidnejit ráđđehus válddi boahtte čavčča Stuorradikke válggain. (sáhtiba -> sáhttiba)

albbas commented 9 years ago

Comment 9669

Date: 2014-10-21 15:10:48 +0200 From: Trond Trosterud <>

Eg trur det hadde vore betre å ha ein bug for kvart problem. Men altså:

VGen av passive verb: i og med at VGen brukast om måten Agens gjer noko på verkar det rimeleg at vi ikkje skal finne VGen av passiv. Med mindre vi finn døme bør desse bort.

Der/goahti av passiv: Denne finst i hunspell-filene våre, men ikkje på internett eller andre stader, så vidt eg kan sjå. Til skilnad frå den førre ser eg ikkje logiske grunnar til at den ikkje skal finnast (og ein var i korpus), men det ser ikkje heilt normalt ut at den ikkje dukkar opp.

Imprt av passive verb: Her har Lene kommentert ut, det ser fornuftig ut.

Dette er ein bug vi bør prioritere opp, det å skrive disambigueringsreglar på former som ikkje eksisterer er ikkje bra, og særleg overgenerering av korte former som VGen vil dekke over skrivefeil.

albbas commented 9 years ago

Comment 9678

Date: 2014-10-21 18:54:12 +0200 From: Lene Antonsen <>

Trond har rett i at det blei for mye i en bug. Jeg anser Imprt og Der/goahti for å være avslutta i denne diskusjonen, så da står VGen igjen. Jeg endra overskrifta og så kan vi fortsette diskusjonen om hvilke verb som i praksis får VGen. Ved å søke i Korp med [msd = ".VGen."] får man 6532 treff, og nesten ingen av dem er virkelige VGen.

Jeg har sett på hvilke verb som får VGen, i Korp og N/S 2011:

Bevegelsesverb, som šloahtat, boahtit, vázzit, geavzut, fáiput, duorrat, guoddit ....

Handlinger man kan gjøre mens man beveger seg, med stemmen: njurgut, juoigat, huikit, garrudit, čierrut...

Handlinger som kan bli avbrutt (gaskan bora) Spesielle uttrykk: oaidnit (oainni leš), vuoššat (uhccan vuošša), vuoitit (min vuoitti), jápmit (lahka jámi, bártna) geargat (lahka geargga, geargga geargga)

ulikestavelsesverb brukes i VGen bare i øst. i korp finnes doarggistit: bođii doarggis

albbas commented 9 years ago

Comment 9679

Date: 2014-10-22 12:11:27 +0200 From: Lene Antonsen <>

Jeg har sett på de 6500 VGen i Korp og gjort en del forbedringer i disamgiguation.cg3.

Jeg har samlet verb som jeg har funnet med VGen pluss liknende verb, i settet LIST VGEN-V.

Jeg tror i første omgang kan være letter identifisere verbtyper som vi kan fjerne fra VGen-stien i lexc, enn å identifisere verb som skal ha stien. Og jeg foreslår å fjerne alle klitika bortsett fra -go.

albbas commented 9 years ago

Comment 9681

Date: 2014-10-22 15:34:44 +0200 From: Lene Antonsen <>

(In reply to comment #13) Og jeg

foreslår å fjerne alle klitika bortsett fra -go.

vi trenger -ge også, fant denne setninga i Korp:

Buotlágan fievrrut geavahuvvojit , go vel gillejit viegage gáikut turisttaid vovnnain moatti ruvnnu ovddas .

albbas commented 9 years ago

Comment 9756

Date: 2014-11-07 14:52:52 +0100 From: Lene Antonsen <>

Siden VGen ikke er så veldig produktiv, så kunne vi løse dette ved å legge bruke diakritiske flagg. Jeg har eksperimentert, og fått dette til å fungere:

diehtit:dieh'ti MAHTI_TV ; < j á p m i t:0 "@P.verb.gen@" > BOAHTI_IV ; < "+VGen":0 "@R.verb.gen@" > K ;

Her gir analysen: jámi jápmit+V+IV+VGen dieđi dieđi +?

Her er verb som jeg har funnet med VGen i korpus, pluss noen verb av samme type (fra disambiguation.cg3): LIST VGEN-V = "bassit" "bárdnat" "bealkit" "biškut" "boahtit" "borrat" "civkit" "čállit" "čeargut" "čierrut" "čuoigat" "čuorvut" "doarggistit" "duorrat" "fáiput" "garrudit" "gállit" "geargat" "geavzut" "gievvut" "gilljut" "girdit" "gullat" "guoddit" "holvut" "huikit" "hupmat" "jápmit" "johtit" "jorgut" "juoigat" "láddjet" "lávlut" "luoibmat" "murdit" "njáhkat" "njoammut" "njurgut" "oaidnit" "orrut" "reaškit" "riidet" "ruohttat" "sihkkelastit" "skeaikit" "skierbmut" "soabbut" "speažžut" "suoibut" "šlivgut" "šloahtat" "šnjirgut" "vázzit" "viehkat" "vuodjat" "vuodjit" "vuohčut" "vuoitit" "vuoššat" ;

Hva med å gjøre slik? 1) begrense VGen til ikke å kunne etterfølges av andre klitika enn -ge og -go 2) ved hjelp av flaggdiakr begrense VGen til verbene i settet, pluss liknende verb

Fordelen med flaggdiakritika er at man slipper å lage ange nye kontinuasjonsleksikon. For å unngå at leksikonfila blir veldig grisete, kunne man legge flagget i et eget leksikon slik:

LEXICON Root @P.verb.gen@ VGenVerb ;

LEXICON VGenVerb jápmit:jápmi BOAHTI_IV ; boahtit:boah'ti BOAHTI_IV ; ....

LEXICON Verb alle andre verb

albbas commented 9 years ago

Comment 9758

Date: 2014-11-07 15:40:03 +0100 From: Trond Trosterud <>

Fordelen med eige leksikon er at jápmit:jápmi BOAHTI_IV ; er langt enklare enn < j á p m i t:0 "@P.verb.gen@" > BOAHTI_IV ; og at VGen-verba står ut som ei separat liste, det er mogleg å lese gjennom dei og smake på dei.

Ulempa er at vi får to lister av verb.

For meg ser det ut til at fordelene er større enn ulempene.

albbas commented 9 years ago

Comment 9759

Date: 2014-11-08 14:21:40 +0100 From: Lene Antonsen <>

En liten oversikt over hva Divvun-programmet tjener på å begrense VGen til enkelte verb:

diehtit+V+VGen dieđi goarrut+V+VGen goaru borrat+V+VGen bora = ConNeg fárret+V+VGen fárre = ConNeg duddjot+V+VGen duddjo = ConNeg čohkkát+V+VGen čohkká = ConNeg doarggistit+V+VGen +? (doarggis) = ConNeg

Det er altså for -it og -ut likestavelsesverb at Divvun-programmet tjener på begrensning.

For de andre verbtypene kan man begrense VGen-analyser v.hj.a. med CG-regler.

Jeg ser absolutt fordeler med å begrense VGen for alle verbtyper også for korpusanalyse og annen praktisk analyse av tekst, men hvis noen ønsker å bruke vår analysator/generator på nettet for å se hvilken form et bestemt verb ville ha i VGen, eller ønsker å se alle mulige morfologiske analyser av et ord, så ville det være en fordel å beholde VGen-analysen som en mulig analyse. Kanskje vi skulle bruke tagging for å få forskjellig i de forskjellig resultat i forskjellige FSTer?

albbas commented 9 years ago

Comment 10364

Date: 2015-03-13 12:17:29 +0100 From: Lene Antonsen <>

Nesten 1000 forskjellige verblemmaer har fått VGen analyse i korpus. Ulikestavelsesstammer, som veldig sjelden får VGen, mens i vårt korpus står hele 329 forskjellige verblemmaer igjen med denne analysen etter disambiguering. Dette gir et galt bilde av VGen-formens produktivitet. For Divvun vil ikke begrensning av VGen for ulikestavelsesverb har noe å si, fordi formen er homonym med ConNeg formen.

Jeg foreslår å fjerne VGen for ulikestavelsesverb og heller hardkode de få som vi finner dokumentert. Jeg arbeider med et mer omfattende forslag, men det tar en stund før det er ferdig.

albbas commented 9 years ago

Comment 10365

Date: 2015-03-13 13:41:28 +0100 From: Trond Trosterud <>

Eg syns det ser ut som eit godt framlegg. Er dette forresten noko Jussi Ylikoski har synspunkt på?

albbas commented 9 years ago

Comment 10366

Date: 2015-03-13 14:49:13 +0100 From: Lene Antonsen <>

Date: 2015-03-13 14:44:53 +0100 (bear, 13 njuk 2015) New Revision: 109263

Modified: trunk/langs/sme/src/morphology/affixes/verbs.lexc trunk/langs/sme/src/morphology/stems/verbs.lexc Log: Kommenterte ut VGen for ulikestavelsesverb,og hardkodet doarggis og gárrut. Se bz. 1850.

la dessuten til garrut (som egentlig var den jeg hadde tenkt)

albbas commented 9 years ago

Comment 10701

Date: 2015-09-21 10:29:06 +0200 From: Sjur Nørstebø Moshagen <>

No need to have Biret Ánne, Berit Merete and Ritva on the CC list anymore.

albbas commented 7 years ago

Comment 12647

Date: 2017-10-04 22:42:02 +0200 From: Sjur Nørstebø Moshagen <>

Status?

albbas commented 7 years ago

Comment 12653

Date: 2017-10-05 08:02:03 +0200 From: Thomas Omma <>

I close