Closed albbas closed 7 years ago
Date: 2014-04-08 13:53:04 +0200
From: Lene Antonsen <
Jeg samler her en del stier som vi kan vurdere om er overgenereringer og derfor bør fjernes. Først ut er VGen av passive verb.
VGen er ikke fullstendig produktiv, N/S 2011 s. 67: Verbgenitiv brukes ikke av alle verb.
Vi har lagt til alle, også passiv, og det virker fremmed for meg, f.eks: borrojuvvo borrat+V+TV+Der/PassL+V+IV+VGen
Disse formene finnes i språket med annen analyse, så vi får ikke færre former til divvun ved å fjerne dem, men vi slipper VGen-analysen.
Date: 2014-04-08 13:54:31 +0200
From: Lene Antonsen <
Neste ut er Der/goahti av passive verb (Der/PassL)
borrojuvvogoahtit borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Inf borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Ind+Prs+Pl1
Finnes disse formene?
Date: 2014-04-08 14:16:53 +0200
From: Lene Antonsen <
For å begrense genereringa av VGen, må man bygge litt om på LEXICON NominalFormsV2, men her er flere former som jeg har lyst at vi skal se nærmere på, kanskje vi kan kutte hele leksikonet for Der/PassL?
VAbess og Ger, dvs:
borrojuvvokeahttá borrat+V+TV+Der/PassL+V+IV+VAbess borrojuvvohaga borrat+V+TV+Der/PassL+V+IV+VAbess
borrojuvvodettiin borrat+V+TV+Der/PassL+V+IV+Ger
Date: 2014-04-08 14:22:56 +0200
From: Lene Antonsen <
(In reply to comment #1)
Neste ut er Der/goahti av passive verb (Der/PassL)
borrojuvvogoahtit borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Inf borrojuvvogoahtit borrat+V+TV+Der/PassL+V+IV+Der/goahti+V+Ind+Prs+Pl1
Finnes disse formene?
Søk i korpus viser at dette finnes:
Der/PassL V* IV Der/goahti
"
Date: 2014-04-08 14:31:29 +0200
From: Lene Antonsen <
(In reply to comment #2)
VAbess og Ger, dvs:
I korpus finner jeg ingen Ger, men jeg finner i lovtekster ordet 'áidojuvvokeahtes'
"
Date: 2014-04-08 14:33:34 +0200
From: Lene Antonsen <
(In reply to comment #0)
VGen er ikke fullstendig produktiv, N/S 2011 s. 67: Verbgenitiv brukes ikke av alle verb.
Vi har lagt til alle, også passiv, og det virker fremmed for meg, f.eks: borrojuvvo borrat+V+TV+Der/PassL+V+IV+VGen
Jeg finner ingen PassL .*VGen i korpus.
Date: 2014-04-08 16:50:05 +0200
From: Lene Antonsen <
gt$ svn ci -m "Kommenterte ut NominalFormsV2 for passive verb, se bz 1850" sme/src/verb-sme-morph.txt Sending sme/src/verb-sme-morph.txt Transmitting file data . Committed revision 91973. Det vil si at Abess, Ger og VGen er utkommenterte.
Vi følger med på dette.
Date: 2014-04-08 18:19:10 +0200
From: Lene Antonsen <
Neste tema er imperativ for passive verb. I korp finner jeg ingen eksempler på at de eksisterer:
dsmeNorm: bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg1 bovdejuvvojehkon bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg2 bovdejuvvo <===== denne er lik formen for indikativ Prs bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg3 bovdejuvvojus bovdet+V+TV+Der/PassL+V+IV+Imprt+Sg3 bovdejuvvojehkos bovdet+V+TV+Der/PassL+V+IV+Imprt+Du1 bovdejuvvojeahkku bovdet+V+TV+Der/PassL+V+IV+Imprt+Du1 bovdejuvvojeadnu bovdet+V+TV+Der/PassL+V+IV+Imprt+Du2 bovdejuvvojeahkki bovdet+V+TV+Der/PassL+V+IV+Imprt+Du3 bovdejuvvojehkoska bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojehkot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojednot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojeatnot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl1 bovdejuvvojeahkkot bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl2 bovdejuvvojehket bovdet+V+TV+Der/PassL+V+IV+Imprt+Pl3 bovdejuvvojehkoset
Jeg foreslår at jeg kommenterer dem også ut. Så få vi heller følge med.
Date: 2014-04-08 18:31:42 +0200
From: Lene Antonsen <
src$ svn ci -m "Kommenterte ut Imprt for passive verb, se bz 1850" verb-sme-morph.txt Sending verb-sme-morph.txt Transmitting file data . Committed revision 91986.
Dette er lett å reversere, alle utkommenteringene er merket med Bz 1850.
Date: 2014-04-08 18:33:48 +0200
From: Lene Antonsen <
Legger kopi til Linda, dette vil sannsynligvis har innvirkning på arbeid med grammatikkontrollprogrammet.
Date: 2014-04-29 11:20:39 +0200
From: Linda Wiechetek <
VGen former som skaper realworderrors er ganske vanlige. Jeg lurer også på en del ikke-passive verb-genitiver
f.eks. jeara jearrat+V+TV+VGen
eksempel: Man lahkai kvalitehtasihkkarastá Sámediggi ahte lea sámi buvtta man Sámediggi doarju, jeara NSR. (jeara -> jearrá)
f.eks. suidne suidnet+V+IV+VGen
Dás gal lea oalle stuorra mearkkašupmi, suidne lea čuohcan garrasit, go dát diggeášši leamas vuordimis, dál su noađđi lea gehppon olu, muitala Bakke. (suidne -> sutnje)
I de fleste tilfellene er det ikke bare VGen formen, men flere former som er mulig analyse, men om vi tar bort VGen formene der de ikke eksisterer, blir det mindre arbeid for grammatikkontroll.
Jeg lurer også på kombinasjonen av VGen og Foc/ba:
Jienasteddjiide sáhttá šaddat váttis áddet, mo olgeš- ja ovddádusbellodat sáhtiba ovddidit oktasaš sámepolitihkka jus dát bellodagat fidnejit ráđđehus válddi boahtte čavčča Stuorradikke válggain. (sáhtiba -> sáhttiba)
Date: 2014-10-21 15:10:48 +0200
From: Trond Trosterud <
Eg trur det hadde vore betre å ha ein bug for kvart problem. Men altså:
VGen av passive verb: i og med at VGen brukast om måten Agens gjer noko på verkar det rimeleg at vi ikkje skal finne VGen av passiv. Med mindre vi finn døme bør desse bort.
Der/goahti av passiv: Denne finst i hunspell-filene våre, men ikkje på internett eller andre stader, så vidt eg kan sjå. Til skilnad frå den førre ser eg ikkje logiske grunnar til at den ikkje skal finnast (og ein var i korpus), men det ser ikkje heilt normalt ut at den ikkje dukkar opp.
Imprt av passive verb: Her har Lene kommentert ut, det ser fornuftig ut.
Dette er ein bug vi bør prioritere opp, det å skrive disambigueringsreglar på former som ikkje eksisterer er ikkje bra, og særleg overgenerering av korte former som VGen vil dekke over skrivefeil.
Date: 2014-10-21 18:54:12 +0200
From: Lene Antonsen <
Trond har rett i at det blei for mye i en bug. Jeg anser Imprt og Der/goahti for å være avslutta i denne diskusjonen, så da står VGen igjen. Jeg endra overskrifta og så kan vi fortsette diskusjonen om hvilke verb som i praksis får VGen. Ved å søke i Korp med [msd = ".VGen."] får man 6532 treff, og nesten ingen av dem er virkelige VGen.
Jeg har sett på hvilke verb som får VGen, i Korp og N/S 2011:
Bevegelsesverb, som šloahtat, boahtit, vázzit, geavzut, fáiput, duorrat, guoddit ....
Handlinger man kan gjøre mens man beveger seg, med stemmen: njurgut, juoigat, huikit, garrudit, čierrut...
Handlinger som kan bli avbrutt (gaskan bora) Spesielle uttrykk: oaidnit (oainni leš), vuoššat (uhccan vuošša), vuoitit (min vuoitti), jápmit (lahka jámi, bártna) geargat (lahka geargga, geargga geargga)
ulikestavelsesverb brukes i VGen bare i øst. i korp finnes doarggistit: bođii doarggis
Date: 2014-10-22 12:11:27 +0200
From: Lene Antonsen <
Jeg har sett på de 6500 VGen i Korp og gjort en del forbedringer i disamgiguation.cg3.
Jeg har samlet verb som jeg har funnet med VGen pluss liknende verb, i settet LIST VGEN-V.
Jeg tror i første omgang kan være letter identifisere verbtyper som vi kan fjerne fra VGen-stien i lexc, enn å identifisere verb som skal ha stien. Og jeg foreslår å fjerne alle klitika bortsett fra -go.
Date: 2014-10-22 15:34:44 +0200
From: Lene Antonsen <
(In reply to comment #13) Og jeg
foreslår å fjerne alle klitika bortsett fra -go.
vi trenger -ge også, fant denne setninga i Korp:
Buotlágan fievrrut geavahuvvojit , go vel gillejit viegage gáikut turisttaid vovnnain moatti ruvnnu ovddas .
Date: 2014-11-07 14:52:52 +0100
From: Lene Antonsen <
Siden VGen ikke er så veldig produktiv, så kunne vi løse dette ved å legge bruke diakritiske flagg. Jeg har eksperimentert, og fått dette til å fungere:
diehtit:dieh'ti MAHTI_TV ; < j á p m i t:0 "@P.verb.gen@" > BOAHTI_IV ; < "+VGen":0 "@R.verb.gen@" > K ;
Her gir analysen: jámi jápmit+V+IV+VGen dieđi dieđi +?
Her er verb som jeg har funnet med VGen i korpus, pluss noen verb av samme type (fra disambiguation.cg3): LIST VGEN-V = "bassit" "bárdnat" "bealkit" "biškut" "boahtit" "borrat" "civkit" "čállit" "čeargut" "čierrut" "čuoigat" "čuorvut" "doarggistit" "duorrat" "fáiput" "garrudit" "gállit" "geargat" "geavzut" "gievvut" "gilljut" "girdit" "gullat" "guoddit" "holvut" "huikit" "hupmat" "jápmit" "johtit" "jorgut" "juoigat" "láddjet" "lávlut" "luoibmat" "murdit" "njáhkat" "njoammut" "njurgut" "oaidnit" "orrut" "reaškit" "riidet" "ruohttat" "sihkkelastit" "skeaikit" "skierbmut" "soabbut" "speažžut" "suoibut" "šlivgut" "šloahtat" "šnjirgut" "vázzit" "viehkat" "vuodjat" "vuodjit" "vuohčut" "vuoitit" "vuoššat" ;
Hva med å gjøre slik? 1) begrense VGen til ikke å kunne etterfølges av andre klitika enn -ge og -go 2) ved hjelp av flaggdiakr begrense VGen til verbene i settet, pluss liknende verb
Fordelen med flaggdiakritika er at man slipper å lage ange nye kontinuasjonsleksikon. For å unngå at leksikonfila blir veldig grisete, kunne man legge flagget i et eget leksikon slik:
LEXICON Root @P.verb.gen@ VGenVerb ;
LEXICON VGenVerb jápmit:jápmi BOAHTI_IV ; boahtit:boah'ti BOAHTI_IV ; ....
LEXICON Verb alle andre verb
Date: 2014-11-07 15:40:03 +0100
From: Trond Trosterud <
Fordelen med eige leksikon er at jápmit:jápmi BOAHTI_IV ; er langt enklare enn < j á p m i t:0 "@P.verb.gen@" > BOAHTI_IV ; og at VGen-verba står ut som ei separat liste, det er mogleg å lese gjennom dei og smake på dei.
Ulempa er at vi får to lister av verb.
For meg ser det ut til at fordelene er større enn ulempene.
Date: 2014-11-08 14:21:40 +0100
From: Lene Antonsen <
En liten oversikt over hva Divvun-programmet tjener på å begrense VGen til enkelte verb:
diehtit+V+VGen dieđi goarrut+V+VGen goaru borrat+V+VGen bora = ConNeg fárret+V+VGen fárre = ConNeg duddjot+V+VGen duddjo = ConNeg čohkkát+V+VGen čohkká = ConNeg doarggistit+V+VGen +? (doarggis) = ConNeg
Det er altså for -it og -ut likestavelsesverb at Divvun-programmet tjener på begrensning.
For de andre verbtypene kan man begrense VGen-analyser v.hj.a. med CG-regler.
Jeg ser absolutt fordeler med å begrense VGen for alle verbtyper også for korpusanalyse og annen praktisk analyse av tekst, men hvis noen ønsker å bruke vår analysator/generator på nettet for å se hvilken form et bestemt verb ville ha i VGen, eller ønsker å se alle mulige morfologiske analyser av et ord, så ville det være en fordel å beholde VGen-analysen som en mulig analyse. Kanskje vi skulle bruke tagging for å få forskjellig i de forskjellig resultat i forskjellige FSTer?
Date: 2015-03-13 12:17:29 +0100
From: Lene Antonsen <
Nesten 1000 forskjellige verblemmaer har fått VGen analyse i korpus. Ulikestavelsesstammer, som veldig sjelden får VGen, mens i vårt korpus står hele 329 forskjellige verblemmaer igjen med denne analysen etter disambiguering. Dette gir et galt bilde av VGen-formens produktivitet. For Divvun vil ikke begrensning av VGen for ulikestavelsesverb har noe å si, fordi formen er homonym med ConNeg formen.
Jeg foreslår å fjerne VGen for ulikestavelsesverb og heller hardkode de få som vi finner dokumentert. Jeg arbeider med et mer omfattende forslag, men det tar en stund før det er ferdig.
Date: 2015-03-13 13:41:28 +0100
From: Trond Trosterud <
Eg syns det ser ut som eit godt framlegg. Er dette forresten noko Jussi Ylikoski har synspunkt på?
Date: 2015-03-13 14:49:13 +0100
From: Lene Antonsen <
Date: 2015-03-13 14:44:53 +0100 (bear, 13 njuk 2015) New Revision: 109263
Modified: trunk/langs/sme/src/morphology/affixes/verbs.lexc trunk/langs/sme/src/morphology/stems/verbs.lexc Log: Kommenterte ut VGen for ulikestavelsesverb,og hardkodet doarggis og gárrut. Se bz. 1850.
la dessuten til garrut (som egentlig var den jeg hadde tenkt)
Date: 2015-09-21 10:29:06 +0200
From: Sjur Nørstebø Moshagen <
No need to have Biret Ánne, Berit Merete and Ritva on the CC list anymore.
Date: 2017-10-04 22:42:02 +0200
From: Sjur Nørstebø Moshagen <
Status?
Date: 2017-10-05 08:02:03 +0200
From: Thomas Omma <
I close
This issue was created automatically with bugzilla2github
Bugzilla Bug 1850
Date: 2014-04-08T13:53:04+02:00 From: Lene Antonsen <>
To: Thomas Omma <>
CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud
Last updated: 2017-10-05T08:02:03+02:00