giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

Sem-tagger og dynamiske sammensetninger ( #224

Closed albbas closed 12 years ago

albbas commented 12 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1273

Date: 2012-02-01T15:23:13+01:00 From: Lene Antonsen <> To: Ciprian Gerstenberger <> CC: berit.a.baal, berit.nystad.eskonsipo, lene.antonsen, linda.wiechetek, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2012-04-12T12:32:17+02:00

albbas commented 12 years ago

Comment 5705

Date: 2012-02-01 15:23:13 +0100 From: Lene Antonsen <>

Jeg er litt usikker på hvor denne meldinga skal plasseres i bz-systemet.

Noen sammensatte ord skal ha semantisk tagg som ikke siste-delen skal ha, f.eks.

alitnásti alit#násti+Plant+N+Sg+Nom <===== Plant alitnásti alit+A+SgNomCmp+Cmp#násti+Ani+N+Sg+Nom alitnásti alit+A+Attr+Cmp#násti+Ani+N+Sg+Nom

násti násti+Ani+N+Sg+Nom (et annen ting - hvorfor Ani for denne?)

~$ echo alitnásti | usme | lookup2cg "<alitnásti>" "alit#násti" Ani N Sg Nom "alit#násti" Plant N Sg Nom

muorra muorra+Plant+N+Sg+Nom

doaresmuorra doaris+N+SgNomCmp+Cmp#muorra+Plant+N+Sg+Nom doaresmuorra doaris+A+Attr+Cmp#muorra+Plant+N+Sg+Nom doaresmuorra doaris+A+SgNomCmp+Cmp#muorra+Plant+N+Sg+Nom doaresmuorra doares#muorra+N+Sg+Nom

~$ echo doaresmuorra | usme | lookup2cg "" "doares#muorra" N Sg Nom "doares#muorra" Plant N Sg Nom

Resultatet er kunstig ambiguitet i analysen, men kanskje enda verre er konsekvensene for grammatikksjekkeren.

albbas commented 12 years ago

Comment 5869

Date: 2012-03-05 13:58:39 +0100 From: Sjur Nørstebø Moshagen <>

Eg er litt usikker på kva du eigentleg meiner:

Skal alitnásti ha +Plant, medan násti ikkje skal ha det? Men om násti ikkje har +Plant (som det ser ut som det ikkje har ut i frå analysene du gjev) er vel alt ok?

Og eksemplet med muorra ser ut til å vera det motsette, men du seier ikkje noko om det eksemplet.

Så lenge skiljet går mellom dynamiske og leksikaliserte samansette ord (eller ikkje-samansette ord) burde anten lookup2cg eller ein vekta transducer fjerna dei irrelevante analysene.

Men eg ser av eksempla dine at lookup2cg ikkje fjernar dei dynamiske samansetjingane sjølv om det finst leksikaliserte analyser - det er vel helst det som er problemet slik eg ser det. Ein bug i lookup2cg.

albbas commented 12 years ago

Comment 5870

Date: 2012-03-05 14:17:56 +0100 From: Lene Antonsen <>

Beklager at jeg ikke har forklart godt nok.

alitnásti er Plant, násti er det ikke doaresmuorra er ikke Plant, men en del av en slede eller liknende, men muorra er Plant (bl.a.).

1) Dette må være problematisk for grammatikksjekkeren fordi den bruker sem-taggene, men det må Linda go Thomas uttale seg om.

2) Det ville være naturlig å bruke sem-taggene som hjelp i disambigueringa ellers, så da er det selvfølgelig problematisk for denne også. Foreløpig har vi ikke slike regler, men det ville være naturlig å bruke taggene.

3) Det annet problem er output av disambigueringa som blir ambigiøs, uten egentlig å være det.

Det finnes helt sikkert flere løsninger på problemet, jeg bringer det på bane.

Vi skal snart begynne å arbeide intensivt med å forbedre disambigueringa av sme, og da er dette en veldig aktuell problemstilling.

albbas commented 12 years ago

Comment 5873

Date: 2012-03-05 15:36:36 +0100 From: Trond Trosterud <>

Det som har skjedd er at lookup2cg har introdusert ein ambiguitet, der alitnásti (sinivuokko) både er (korrekt) +Plant og (sic!) +Ani (dvs. har same semantikk som himmellekamen).

For doaresmuorra er resultatet er det same: Ein kunstig ambiguitet, og den kjem av same grunn som for stjerna.

Så lenge skiljet går mellom dynamiske og leksikaliserte samansette ord (eller ikkje-samansette ord) burde anten lookup2cg eller ein vekta transducer fjerna dei irrelevante analysene.

Ja.

Men eg ser av eksempla dine at lookup2cg ikkje fjernar dei dynamiske samansetjingane sjølv om det finst leksikaliserte analyser - det er vel helst det som er problemet slik eg ser det. Ein bug i lookup2cg.

Ja, det er det det er. Og konsekvensane er negative for disambiguering generelt, men kanskje spesielt for grammatikkontrollen, som jo er den som bruker dei (no misplasserte) semantiske taggane.

albbas commented 12 years ago

Comment 6006

Date: 2012-04-11 18:57:55 +0200 From: Linda Wiechetek <>

Eg ser problemet, det er ønskelig å bare ha semantiske tagger når det ikke er dynamiske sammensetninger. Eg veit ikkje kosjn man kan løse det, men vil ikkje gi opp semantiske taggan fordi eg har venta veldig lenge på dem og er veldig glad for å endelig ha dem så tilgjengelig. Jeg er veldig interessert i å finne en løsning og diskutere mulighetan.

albbas commented 12 years ago

Comment 6008

Date: 2012-04-11 21:00:40 +0200 From: Lene Antonsen <>

Jeg er ikke mot semantiske tagger, de kan vi helt sikkert dra nytte av i disambigueringa.

Vi må bare finne en måte på å få luket ut de dynamiske sammensetningene. Tidligere var det ikke noe problem fordi de etter lookup2cg ble identiske med de leksikaliserte sammensetningene. Pga av de semantiske taggene blir de nå forskjellige og vi får en kunstig ambiguitet, og grammatikkkontrollen blir forvirra av feil semantisk tagging.

albbas commented 12 years ago

Comment 6014

Date: 2012-04-12 12:09:47 +0200 From: Berit Nystad Eskonsipo <>

Er denne løst?

src $ echo alitnásti|usme|lookup2cg "<alitnásti>" "alitnásti" Plant N Sg Nom src $ echo alitnásti | usme | lookup2cg "<alitnásti>" "alitnásti" Plant N Sg Nom src $ echo doaresmuorra | usme | lookup2cg "" "doaresmuorra" N Sg Nom

albbas commented 12 years ago

Comment 6015

Date: 2012-04-12 12:26:47 +0200 From: Lene Antonsen <>

Interessant - kanskje årsaken er at vi har fjerna # fra de leksikaliserte sammensetningene, og lookup2cg derfor foretrekker dem.

albbas commented 12 years ago

Comment 6016

Date: 2012-04-12 12:32:17 +0200 From: Linda Wiechetek <>

Ja, de kan være. Jeg testa flere sammensatte ord

nálahatsadji nálahatsadji+N+Sg+Nom nálahatsadji nálahat+N+SgGenCmp+Cmp#sadji+Plc+N+Sg+Nom nálahatsadji nálahat+N+SgNomCmp+Cmp#sadji+Plc+N+Sg+Nom

"<nálahatsadji>" "nálahatsadji" N Sg Nom

"<Sámediggeviessu>" "sámediggeviessu" Build N Sg Nom hum-tf4-ans169:src lindawiechetek$ echo Sámediggeviessu | usme Sámediggeviessu Sámedigge+N+Prop+Org+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu Sámedigge+N+Prop+Org+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sápmi+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sápmi+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sápmi+N+SgGenCmp+Cmp#diggeviessu+Build+N+Sg+Nom Sámediggeviessu sápmi+Hum+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sápmi+Hum+N+SgGenCmp+Cmp#diggi+N+SgNomCmp+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sápmi+Hum+N+SgGenCmp+Cmp#diggeviessu+Build+N+Sg+Nom Sámediggeviessu sámedigge+N+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sámedigge+N+Cmp#viessut+V+IV+PrsPrc Sámediggeviessu sámediggeviessu+Build+N+Sg+Nom Sámediggeviessu sámediggi+Org+Build+N+SgNomCmp+Cmp#viessu+Build+N+Sg+Nom Sámediggeviessu sámediggi+Org+Build+N+SgNomCmp+Cmp#viessut+V+IV+PrsPrc

"<Sámediggeviessu>" "sámediggeviessu" Build N Sg Nom

og i alle tilfeller blir den leksikaliserte versjonen foretrukket, det betyr vel at problemet er løst.