Closed albbas closed 12 years ago
Date: 2012-02-01 15:23:13 +0100
From: Lene Antonsen <
Jeg er litt usikker på hvor denne meldinga skal plasseres i bz-systemet.
Noen sammensatte ord skal ha semantisk tagg som ikke siste-delen skal ha, f.eks.
alitnásti alit#násti+Plant+N+Sg+Nom <===== Plant alitnásti alit+A+SgNomCmp+Cmp#násti+Ani+N+Sg+Nom alitnásti alit+A+Attr+Cmp#násti+Ani+N+Sg+Nom
násti násti+Ani+N+Sg+Nom (et annen ting - hvorfor Ani for denne?)
~$ echo alitnásti | usme | lookup2cg "<alitnásti>" "alit#násti" Ani N Sg Nom "alit#násti" Plant N Sg Nom
muorra muorra+Plant+N+Sg+Nom
doaresmuorra doaris+N+SgNomCmp+Cmp#muorra+Plant+N+Sg+Nom doaresmuorra doaris+A+Attr+Cmp#muorra+Plant+N+Sg+Nom doaresmuorra doaris+A+SgNomCmp+Cmp#muorra+Plant+N+Sg+Nom doaresmuorra doares#muorra+N+Sg+Nom
~$ echo doaresmuorra | usme | lookup2cg
"
Resultatet er kunstig ambiguitet i analysen, men kanskje enda verre er konsekvensene for grammatikksjekkeren.
Date: 2012-03-05 13:58:39 +0100
From: Sjur Nørstebø Moshagen <
Eg er litt usikker på kva du eigentleg meiner:
Skal alitnásti ha +Plant, medan násti ikkje skal ha det? Men om násti ikkje har +Plant (som det ser ut som det ikkje har ut i frå analysene du gjev) er vel alt ok?
Og eksemplet med muorra ser ut til å vera det motsette, men du seier ikkje noko om det eksemplet.
Så lenge skiljet går mellom dynamiske og leksikaliserte samansette ord (eller ikkje-samansette ord) burde anten lookup2cg eller ein vekta transducer fjerna dei irrelevante analysene.
Men eg ser av eksempla dine at lookup2cg ikkje fjernar dei dynamiske samansetjingane sjølv om det finst leksikaliserte analyser - det er vel helst det som er problemet slik eg ser det. Ein bug i lookup2cg.
Date: 2012-03-05 14:17:56 +0100
From: Lene Antonsen <
Beklager at jeg ikke har forklart godt nok.
alitnásti er Plant, násti er det ikke doaresmuorra er ikke Plant, men en del av en slede eller liknende, men muorra er Plant (bl.a.).
1) Dette må være problematisk for grammatikksjekkeren fordi den bruker sem-taggene, men det må Linda go Thomas uttale seg om.
2) Det ville være naturlig å bruke sem-taggene som hjelp i disambigueringa ellers, så da er det selvfølgelig problematisk for denne også. Foreløpig har vi ikke slike regler, men det ville være naturlig å bruke taggene.
3) Det annet problem er output av disambigueringa som blir ambigiøs, uten egentlig å være det.
Det finnes helt sikkert flere løsninger på problemet, jeg bringer det på bane.
Vi skal snart begynne å arbeide intensivt med å forbedre disambigueringa av sme, og da er dette en veldig aktuell problemstilling.
Date: 2012-03-05 15:36:36 +0100
From: Trond Trosterud <
Det som har skjedd er at lookup2cg har introdusert ein ambiguitet, der alitnásti (sinivuokko) både er (korrekt) +Plant og (sic!) +Ani (dvs. har same semantikk som himmellekamen).
For doaresmuorra er resultatet er det same: Ein kunstig ambiguitet, og den kjem av same grunn som for stjerna.
Så lenge skiljet går mellom dynamiske og leksikaliserte samansette ord (eller ikkje-samansette ord) burde anten lookup2cg eller ein vekta transducer fjerna dei irrelevante analysene.
Ja.
Men eg ser av eksempla dine at lookup2cg ikkje fjernar dei dynamiske samansetjingane sjølv om det finst leksikaliserte analyser - det er vel helst det som er problemet slik eg ser det. Ein bug i lookup2cg.
Ja, det er det det er. Og konsekvensane er negative for disambiguering generelt, men kanskje spesielt for grammatikkontrollen, som jo er den som bruker dei (no misplasserte) semantiske taggane.
Date: 2012-04-11 18:57:55 +0200
From: Linda Wiechetek <
Eg ser problemet, det er ønskelig å bare ha semantiske tagger når det ikke er dynamiske sammensetninger. Eg veit ikkje kosjn man kan løse det, men vil ikkje gi opp semantiske taggan fordi eg har venta veldig lenge på dem og er veldig glad for å endelig ha dem så tilgjengelig. Jeg er veldig interessert i å finne en løsning og diskutere mulighetan.
Date: 2012-04-11 21:00:40 +0200
From: Lene Antonsen <
Jeg er ikke mot semantiske tagger, de kan vi helt sikkert dra nytte av i disambigueringa.
Vi må bare finne en måte på å få luket ut de dynamiske sammensetningene. Tidligere var det ikke noe problem fordi de etter lookup2cg ble identiske med de leksikaliserte sammensetningene. Pga av de semantiske taggene blir de nå forskjellige og vi får en kunstig ambiguitet, og grammatikkkontrollen blir forvirra av feil semantisk tagging.
Date: 2012-04-12 12:09:47 +0200
From: Berit Nystad Eskonsipo <
Er denne løst?
src $ echo alitnásti|usme|lookup2cg
"<alitnásti>"
"alitnásti" Plant N Sg Nom
src $ echo alitnásti | usme | lookup2cg
"<alitnásti>"
"alitnásti" Plant N Sg Nom
src $ echo doaresmuorra | usme | lookup2cg
"
Date: 2012-04-12 12:26:47 +0200
From: Lene Antonsen <
Interessant - kanskje årsaken er at vi har fjerna # fra de leksikaliserte sammensetningene, og lookup2cg derfor foretrekker dem.
Date: 2012-04-12 12:32:17 +0200
From: Linda Wiechetek <
Ja, de kan være. Jeg testa flere sammensatte ord
nálahatsadji nálahatsadji+N+Sg+Nom nálahatsadji nálahat+N+SgGenCmp+Cmp#sadji+Plc+N+Sg+Nom nálahatsadji nálahat+N+SgNomCmp+Cmp#sadji+Plc+N+Sg+Nom
"<nálahatsadji>" "nálahatsadji" N Sg Nom
"<Sámediggeviessu>" "sámediggeviessu" Build N Sg Nom hum-tf4-ans169:src lindawiechetek$ echo Sámediggeviessu | usme Sámediggeviessu Sámedigge+N+Prop+Org+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu Sámedigge+N+Prop+Org+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sápmi+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sápmi+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sápmi+N+SgGenCmp+Cmp#diggeviessu+Build+N+Sg+Nom Sámediggeviessu sápmi+Hum+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sápmi+Hum+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sápmi+Hum+N+SgGenCmp+Cmp#diggeviessu+Build+N+Sg+Nom Sámediggeviessu sámedigge+N+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sámedigge+N+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sámediggeviessu+Build+N+Sg+Nom Sámediggeviessu sámediggi+Org+Build+N+SgNomCmp+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sámediggi+Org+Build+N+SgNomCmp+Cmp#viessut+V+IV+PrsPrc
"<Sámediggeviessu>" "sámediggeviessu" Build N Sg Nom
og i alle tilfeller blir den leksikaliserte versjonen foretrukket, det betyr vel at problemet er løst.
This issue was created automatically with bugzilla2github
Bugzilla Bug 1273
Date: 2012-02-01T15:23:13+01:00 From: Lene Antonsen <>
To: Ciprian Gerstenberger <>
CC: berit.a.baal, berit.nystad.eskonsipo, lene.antonsen, linda.wiechetek, sjur.n.moshagen, thomas.omma, trond.trosterud
Last updated: 2012-04-12T12:32:17+02:00