giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

Om Der/lágaš og Der/lágan og # ( #294

Open albbas opened 12 years ago

albbas commented 12 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1363

Date: 2012-05-27T10:32:05+02:00 From: Lene Antonsen <> To: Trond Trosterud <> CC: lene.antonsen, maja.l.kappfjell, sandra.rahka, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2018-05-29T10:52:00+02:00

albbas commented 12 years ago

Comment 6370

Date: 2012-05-27 10:32:05 +0200 From: Lene Antonsen <>

Der/lágaš og Der/lágan derivasjonene fungerer ikke slik de skal i lookup2cg pga # Vi kan konkludere med at lookup2cg må fikses, men spørsmålet her er om analysene er slik vi vil ha dem.

Hvorfor er # med?

usme: alitlágáš alit+A+Attr#+Der/lágaš+A+Sg+Nom <=== her mangler SgNomCmp-analysen (alit er både Attr og Sg Nom)

ruoksatlágaš ruoksat+A+SgNomCmp#+Der/lágaš+A+Sg+Nom rukseslágaš ruoksat+A+Attr#+Der/lágaš+A+Sg+Nom

guovttejuolggat guokte+Num+Sg+Gen+Der/juolggat+A+Sg+Nom <== for sammenlikning, ingen #

echo 'alitlágaš' | usme | lookup2cg <=== Der/lágaš -analysen forsvinner pga av den har # og det finnes alternative analyser "<alitlágaš>" "alitlágaš" A Sg Nom "alitlágaš" A Attr "alitlágaš" A Sg Gen "alitlágaš" A Sg Acc

src$ echo 'ruoksatlágaš' | usme | lookup2cg
"ruoksat+A+SgNomCmp#" Der/lágaš A Sg Nom <== lemmaet er ikke riktig, pga #

src$ echo 'ruoksatlágan' | usme | lookup2cg <=== Der/lágan -analysen forsvinner pga av den har # og det finnes alternative analyser, ingen av dem er relevante "<ruoksatlágan>" "ruoksat#láhka" N Sg Loc "ruoksat#lága" N Sg Nom PxSg1 "ruoksat#lága" N Sg Acc PxSg1 "ruoksat#lága" N Sg Loc "ruoksat#lága" N Ess "ruoksat#lága" N Sg Gen PxSg1

albbas commented 12 years ago

Comment 6372

Date: 2012-05-27 14:18:30 +0200 From: Lene Antonsen <>

Det er flere typer derivasjoner som får #, f.eks.

heajosoaivvat heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Sg+Nom heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Sg+Gen heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Sg+Acc heajosoaivvat headju+A+Attr#+Der/oaivvat+A+Attr

albbas commented 12 years ago

Comment 6373

Date: 2012-05-27 16:41:31 +0200 From: Trond Trosterud <>

Eg har no fjerna # frå derivasjonane frå A via NAMAT til nye adjektiv, svn 59192 og 59194.

Her er resultatet:

echo 'ruoksatlágan' | usme | lookup2cg "<ruoksatlágan>" "ruoksat#láhka" N Sg Loc "ruoksat" A SgNomCmp Der/lágan A Attr "ruoksat" A SgNomCmp Der/lágan A Sg Acc "ruoksat" A SgNomCmp Der/lágan A Sg Nom "ruoksat" A SgNomCmp Der/lágan A Sg Gen "ruoksat#lága" N Ess "ruoksat#lága" N Sg Gen PxSg1 "ruoksat#lága" N Sg Acc PxSg1 "ruoksat#lága" N Sg Loc "ruoksat#lága" N Sg Nom PxSg1

echo 'heajosoaivvat' | usme | lookup2cg "" "headju" A Attr Der/oaivvat A Sg Nom "headju" A Attr Der/oaivvat A Sg Gen "headju" A Attr Der/oaivvat A Sg Acc "headju" A Attr Der/oaivvat A Attr

Det positive er at vi no får NAMAT-formene (dei vart fjerna tidlegare). Ein mogleg bieffekt har vi i tilfelle det er gode grunnar til å ha # der. Eg held bugen open i tilfelle.

albbas commented 12 years ago

Comment 6375

Date: 2012-05-27 18:30:35 +0200 From: Lene Antonsen <>

+A+Attr+Der/lágaš er problematisk for vislcg3.

echo 'rukseslágáš' | usme | lookup2cg "rukses#lágáš" N Sg Nom "ruoksat" A Attr Der/lágaš A Attr <======= riktig "ruoksat" A Attr Der/lágaš A Sg Acc "ruoksat" A Attr Der/lágaš A Sg Nom "ruoksat" A Attr Der/lágaš A Sg Gen "rukses#lágáš" N Sg Acc "rukses#lágáš" N Sg Gen

echo 'rukseslágáš' | usme | lookup2cg | vislcg3 -g ~/gtsvn/gt/sme/src/sme-dis.rle --trace

"<rukseslágáš>" "rukses#lágáš" N Sg Nom @HNOUN MAP:14778:r328 ; "ruoksat" A Attr Der/lágaš A REMOVE:7366:r1703 <======= A Attr har blitt til A ; "ruoksat" A Attr Der/lágaš A Sg Acc REMOVE:7366:r1703 ; "ruoksat" A Attr Der/lágaš A Sg Nom REMOVE:7366:r1703 ; "ruoksat" A Attr Der/lágaš A Sg Gen REMOVE:7366:r1703 ; "rukses#lágáš" N Sg Acc REMOVE:9790:r2186 ; "rukses#lágáš" N Sg Gen @X MAP:15605 REMOVE:15607

Jeg har testet litt, og vislcg3 gjengir ikke to like tagger, dvs at den andre Attr forsvinner. Dvs at lookup2cg må legge * til den første Attr, noe som også er viktig for riktig disambiguering, ellers vil alle lesningene bli tolket som Attr.

hfst: gt$ echo 'rukseslágaš' | hfst-proc -C -e sme/bin/sme.hfstol "<rukseslágaš>" "ruoksat" A Attr ‡ ‡ Der/lágaš A Attr "ruoksat" A Attr ‡ ‡ Der/lágaš A Sg Acc "ruoksat" A Attr ‡ ‡ Der/lágaš A Sg Gen "ruoksat" A Attr ‡ ‡ Der/lágaš A Sg Nom

albbas commented 12 years ago

Comment 6376

Date: 2012-05-27 21:04:27 +0200 From: Trond Trosterud <>

Eitt alternativ er å ikkje ha Attr som tag til venstre for Der/lágaš. Sakleg sett er det korrekt, Attr er ein syntaktisk tag, og det skal ikkje vere syntaks inni ordet. Så A Attr er eitt alternativ, men eit anna er berre A*, utan Attr.

albbas commented 12 years ago

Comment 6383

Date: 2012-05-29 09:34:06 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #4)

Eitt alternativ er å ikkje ha Attr som tag til venstre for Der/lágaš. Sakleg sett er det korrekt, Attr er ein syntaktisk tag, og det skal ikkje vere syntaks inni ordet. Så A Attr er eitt alternativ, men eit anna er berre A*, utan Attr.

Eg fekk ingen Attr-analyser tidlegare (svn frå fleire veker sidan), og eg får ingen Attr no:

$ usme

ruoksatlágan ruoksatlágan ruoksat+A+SgGenCmp+Cmp#láhka+N+Sg+Loc ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Loc ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Ess ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Nom+PxSg1 ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Gen+PxSg1 ruoksatlágan ruoksat+A+SgGenCmp+Cmp#lága+N+Sg+Acc+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Attr ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Gen ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Acc ruoksatlágan ruoksat+A+SgNomCmp+Der/lágan+A+Sg+Nom ruoksatlágan ruoksat+A+SgNomCmp+Cmp#láhka+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Ess ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#láhka+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Loc ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Ess ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ruoksatlágan ruoksat+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1

og med lookup2cg:

$ echo 'ruoksatlágan' | usme | lookup2cg "<ruoksatlágan>" "ruoksat#láhka" N Sg Loc "ruoksat" A SgNomCmp Der/lágan A Attr "ruoksat" A SgNomCmp Der/lágan A Sg Acc "ruoksat" A SgNomCmp Der/lágan A Sg Nom "ruoksat" A SgNomCmp Der/lágan A Sg Gen "ruoksat#lága" N Ess "ruoksat#lága" N Sg Gen PxSg1 "ruoksat#lága" N Sg Acc PxSg1 "ruoksat#lága" N Sg Loc "ruoksat#lága" N Sg Nom PxSg1

Etter det eg kan sjå, er dette ok no?

albbas commented 12 years ago

Comment 6384

Date: 2012-05-29 09:41:09 +0200 From: Trond Trosterud <>

Du får ikkje Attr fordi du testar med ruoksat (pred-form) og ikkje rukses (Attr-form), i ruoksatlágan og ikkje rukseslágán. Som du ser har vi Attr der, og det er altså ikkje ok.

At revision 59215. ~/main/gt$make GTLANG=sme make: Nothing to be done for `all'. ~/main/gt$echo rukseslágán | usme | lookup2cg "<rukseslágán>" "rukseslágan" A Sg Gen "ruoksat" A Attr Der/lágan A Sg Nom "ruoksat" A Attr Der/lágan A Sg Gen "rukseslágan" A Sg Nom "rukseslágan" A Attr "ruoksat" A Attr Der/lágan A Sg Acc "rukseslágan" A Sg Acc "ruoksat" A Attr Der/lágan A Attr

albbas commented 12 years ago

Comment 6385

Date: 2012-05-29 10:12:16 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #6)

Du får ikkje Attr fordi du testar med ruoksat (pred-form) og ikkje rukses (Attr-form), i ruoksatlágan og ikkje rukseslágán. Som du ser har vi Attr der, og det er altså ikkje ok.

Eg ser det no - begge formene (pred og attr) var brukte i dei andre kommentarane, og eg las ikkje nøye nok då eg kopierte kommandoane eg testa.

Samtidig illustrerer dette eit skilje i form, ikkje berre i funksjon. Det blir samtidig eit argument for å la Attr stå i analysen: A Attr og A Sg Nom (dvs pred) er ikkje same form, og i og med at begge formene er brukte i diskusjonen, betyr vel det at begge er ok? I så fall må vi kunna skilja dei, både i analyse og i generering, og då treng vi begge taggane.

Den enklaste løysinga er å gå over til sub-readings i CG så fort som råd - då vil A Attr vera ei underlesing, som vanlegvis ikkje er synleg for CG-reglane, og vi står att med berre A Sg Nom (for -lágaš), som vi vil ha.

På det viset får vi både i pose og smekk. Kva synest de?

NB! Viktig: underlesingar kan vi få fram både med Xerox og HFST - det ligg altså inga binding til HFST i den endringa. Men det krev at vislcg3 blir oppdatert, og det har vore liten respons frå Tino på den siste e-posten min om saka.

albbas commented 12 years ago

Comment 6386

Date: 2012-05-29 11:19:49 +0200 From: Lene Antonsen <>

Samtidig illustrerer dette eit skilje i form, ikkje berre i funksjon. Det blir samtidig eit argument for å la Attr stå i analysen: A Attr og A Sg Nom (dvs pred) er ikkje same form, og i og med at begge formene er brukte i diskusjonen, betyr vel det at begge er ok? I så fall må vi kunna skilja dei, både i analyse og i generering, og då treng vi begge taggane.

Den enklaste løysinga er å gå over til sub-readings i CG så fort som råd - då vil A Attr vera ei underlesing, som vanlegvis ikkje er synleg for CG-reglane, og vi står att med berre A Sg Nom (for -lágaš), som vi vil ha.

På det viset får vi både i pose og smekk. Kva synest de?

NB! Viktig: underlesingar kan vi få fram både med Xerox og HFST - det ligg altså inga binding til HFST i den endringa. Men det krev at vislcg3 blir oppdatert, og det har vore liten respons frå Tino på den siste e-posten min om saka.

Å skille rukseslágan fra ruoksatlágan er ikke viktig i analyse, da ordene bare er varianter, og det har ingen syntaktisk forskjell. Men ved generering, er man avhengig av at taggene er forskjellige. Jeg foreslår at vi bruker samme konvensjon som ved andre sammensetninger: AttrCmp

Ellers så ser jeg at når Attr og Sg Nom er homonyme, får vi bare Attr:

ruonálágaš ruoná+A+Attr+Der/lágaš+A+Sg+Nom ruonálágaš ruoná+A+Attr+Der/lágaš+A+Sg+Gen ruonálágaš ruoná+A+Attr+Der/lágaš+A+Sg+Acc ruonálágaš ruoná+A+Attr+Der/lágaš+A+Attr ruonálágan ruoná+A+Attr+Der/lágan+A+Attr ruonálágan ruoná+A+Attr+Der/lágan+A+Sg+Gen ruonálágan ruoná+A+Attr+Der/lágan+A+Sg+Acc ruonálágan ruoná+A+Attr+Der/lágan+A+Sg+Nom

Mao. er er Attr valgt som 'default'. Jeg har ingen synspunkter på om dette er bra eller ikke.

alitlágan og álitlágaš er bare leksikaliserte, vi får ingen dynamisk analyse. ránislágan finnes ikke i vår analysator, men ráneslágan finnes. Slike ord dukker ikke opp på missinglister pga av alternative analyser med Cmp 'láhka' pg 'lága'. Dette burde vært sett på....

albbas commented 12 years ago

Comment 6388

Date: 2012-05-29 20:03:28 +0200 From: Lene Antonsen <>

src$ svn ci -m "Endra til AttrCmp for deriveringer fra A Attr." propernoun-sme-morph.txt noun-sme-lex.txt adj-sme-lex.txt sme-lex.txt Sending adj-sme-lex.txt Sending noun-sme-lex.txt Sending propernoun-sme-morph.txt Sending sme-lex.txt Transmitting file data .... Committed revision 59237.

Nå er analysen: heajosoaivvat headju+A+AttrCmp+Der/oaivvat+A+Attr rukseslágan ruoksat+A+AttrCmp+Der/lágan+A+Attr

Fremdeles gjenstår en gjennomgang for å finne leksikoner som mangler sti til denne derivasjonen.

albbas commented 11 years ago

Comment 6933

Date: 2012-09-27 12:41:44 +0200 From: Thomas Omma <>

it seems fixed

albbas commented 11 years ago

Comment 6934

Date: 2012-09-27 12:58:43 +0200 From: Lene Antonsen <>

(In reply to comment #10)

it seems fixed

Nei, dette er ikke fiksa Jeg siterer fra comment nr 9: "Fremdeles gjenstår en gjennomgang for å finne leksikoner som mangler sti til denne derivasjonen."

ránislágan ránislágan ránis+A+SgNomCmp+Cmp#láhka+N+Sg+Loc ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Loc ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Ess ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1

albbas commented 11 years ago

Comment 6935

Date: 2012-09-27 13:22:28 +0200 From: Thomas Omma <>

oh but maybe it is better to take away ruoksatlágan?

albbas commented 11 years ago

Comment 6936

Date: 2012-09-27 13:23:44 +0200 From: Thomas Omma <>

I dont think lágan is used with Sg+Nom Adj, I mean

albbas commented 11 years ago

Comment 6937

Date: 2012-09-27 13:26:55 +0200 From: Thomas Omma <>

gea:

ránislágan ránislágan ránis+A+SgNomCmp+Der/lágáš+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágáš+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágáš+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Der/lágán+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágán+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágán+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Der/lágaš+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágaš+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágaš+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Der/lágan+v1+A+Attr ránislágan ránis+A+SgNomCmp+Der/lágan+v1+A+Sg+Nom ránislágan ránis+A+SgNomCmp+Der/lágan+v1+A+Sg+Acc ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Ess ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 ránislágan ránis+A+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1

albbas commented 11 years ago

Comment 6940

Date: 2012-09-27 15:08:25 +0200 From: Thomas Omma <>

the removal of # had unwanted impact on vowelshorteing:

gt $ usmeNorm 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% vierisnáittot vierisnáittot vieris+A+AttrCmp+Der/náittot+A+Sg+Nom vierisnáittot vieris+A+AttrCmp+Der/náittot+A+Attr

vieresnáittot vieresnáittot vieresnáittot +?

albbas commented 11 years ago

Comment 6942

Date: 2012-09-27 15:32:19 +0200 From: Thomas Omma <>

hmmm...or was this earlier?

albbas commented 11 years ago

Comment 6943

Date: 2012-09-27 15:57:55 +0200 From: Lene Antonsen <>

Også for meg er A Nom Sg + Der/lágan en uvant derivasjon. Da denne buggen blei starta, så spurte jeg meg for om denne derivasjonen, og fikk bekrefta at den fantes (husker ikke fra hvem), og den fantes også i var fst. Jeg testa i korpuset (det analyserte), men her er resultatene veldig usikre pga av det som står forklart i denne buggen, at slike former forsvant pga av lookup, og vi har ingen nyere analyser. Analysene for juni er mangelfulle for sme. Jeg foreslår at vi avventer dette til vi har nye analyser av korpuset, og så får vi vurdere. Evt kan man leksikalisere de A Nom Sg som evt finnes, hvis derivasjonen ikke er produktiv.

Men uansett så er dette noe vi får finne ut av, og rydde i fst den ene eller andre vegen, før vi lukker buggen.

albbas commented 11 years ago

Comment 6944

Date: 2012-09-27 16:01:05 +0200 From: Lene Antonsen <>

Dette gjelder forresten substantiver også:

olmmošlágan olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#láhka+N+Sg+Loc olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Loc olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Ess olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Gen+PxSg1 olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Acc+PxSg1 olmmošlágan olmmoš+Hum+N+SgNomCmp+Cmp#lága+N+Sg+Nom+PxSg1

Her mangler Der/lágan

albbas commented 11 years ago

Comment 6945

Date: 2012-09-27 16:01:45 +0200 From: Thomas Omma <>

jes, the not shortening vowel was already before the removal of #.

I now tuned twol rule to get it right

gt $ usmeNorm 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% váttesnáittot váttesnáittot váttis+A#+Der/náittot+A+Sg+Nom váttesnáittot váttis+A#+Der/náittot+A+Attr

váttisnáittot váttisnáittot váttisnáittot +?

revision 63263

albbas commented 11 years ago

Comment 6946

Date: 2012-09-27 16:03:59 +0200 From: Thomas Omma <>

lágan takes Adj+Attr and nouns in both Nom and Gen

I take away the Adj+Sg+Nom that are

albbas commented 11 years ago

Comment 6947

Date: 2012-09-27 16:06:07 +0200 From: Thomas Omma <>

we have some nountypes + der/lágan

noaidelágan noaidi+Hum+N+SgNomCmp+Der/lágán+v1+A+Sg+Nom

albbas commented 11 years ago

Comment 6948

Date: 2012-09-27 16:06:45 +0200 From: Thomas Omma <>

i watch the other types over

albbas commented 11 years ago

Comment 6952

Date: 2012-09-28 10:12:07 +0200 From: Thomas Omma <>

I dont know why olmmošlágán doesnt function, it goes to R and I tried removing the flags as well, without suces:

LEXICON MALIS0 +Sg+Nom: K ; +SgNomCmp@U.NeedsVowRed.ON@:X7@U.NeedsVowRed.ON@ R ; +SgNomCmp@U.NeedsVowRed.OFF@:@U.NeedsVowRed.OFF@ R ;

albbas commented 11 years ago

Comment 6953

Date: 2012-09-28 10:28:02 +0200 From: Thomas Omma <>

aha

gt $ dsme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% olmmoš+N+SgNomCmp+Der/lágán+A+Attr olmmoš+N+SgNomCmp+Der/lágán+A+Attr olmmožlágan olmmoš+N+SgNomCmp+Der/lágán+A+Attr olmmožlágán

albbas commented 11 years ago

Comment 6954

Date: 2012-09-28 10:41:05 +0200 From: Thomas Omma <>

so it seems we need # there anyways

albbas commented 11 years ago

Comment 6955

Date: 2012-09-28 10:44:03 +0200 From: Thomas Omma <>

bajážlágán bajážlágán bajáš+A+AttrCmp+Der/lágan+v2+A+Attr bajážlágán bajáš+A+AttrCmp+Der/lágan+v2+A+Sg+Nom bajážlágán bajáš+A+AttrCmp+Der/lágan+v2+A+Sg+Acc

we need it everywhere

albbas commented 11 years ago

Comment 6956

Date: 2012-09-28 11:19:03 +0200 From: Lene Antonsen <>

Problemet med # og Der i analysen, er at det signaliserer til lookup2cg (og muligens hfxst-preprosessering), at denne analysen skal ut.

albbas commented 11 years ago

Comment 6957

Date: 2012-09-28 11:24:43 +0200 From: Thomas Omma <>

almmájlágán almmájlágán almmái+Hum+N+SgNomCmp+Der/lágán+v2+A+Attr

albbas commented 11 years ago

Comment 7463

Date: 2012-11-26 11:06:17 +0100 From: Thomas Omma <>

weve commented these out from speller and lexicalized a whole lot

I don't know what do do with the generated ones

albbas commented 11 years ago

Comment 7580

Date: 2012-12-18 10:37:41 +0100 From: Sjur Nørstebø Moshagen <>

The problem summary is this:

Det positive er at vi no får NAMAT-formene (dei vart fjerna tidlegare). Ein mogleg bieffekt har vi i tilfelle det er gode grunnar til å ha # der. Eg held bugen open i tilfelle.

The side effect was - and is - that we get wrong word forms, at least for some stem types.

(side note: I guess the etymological reason for the bug is that these derivations are originally compounds, where the last part has now lost its use as an independent word, but where the morpho-phonology still behaves as if there is a word boundary there. And our two-level rules are dependent upon such word boundaries.)

What we need to do is:

Expected result: no #, only Der/xxx is given in the analysis, which should satisfy all parties.

Requirement: To write a fully working regular expression, I need a list of all derivations that can appear with a # in front.

Changing assignee to Trond, to do the first task. When it is done, give the bug to me.

albbas commented 11 years ago

Comment 7581

Date: 2012-12-18 10:44:46 +0100 From: Trond Trosterud <>

Ok, eg ser på det.

albbas commented 9 years ago

Comment 9653

Date: 2014-10-21 07:02:14 +0200 From: Trond Trosterud <>

Denne buggen har dessverre vorte liggande. Eg skulle skrive ei liste over derivasjonar som kunne få #, og deretter skulle Sjur skrive eit script for å sette inn # der det trengst for å få rett sluttkonsonant. Er dette framleis ei relevant problemstilling? (dette er ein to og eit halvt år gammal problemstilling). Eg har no gått gjennom og testa ein del av feila vi starta ut med, mend eg treng ein gjennomgang.

albbas commented 9 years ago

Comment 9820

Date: 2014-11-20 00:07:49 +0100 From: Lene Antonsen <>

Slik er analysen nå for dynamiske Der/lágan:

sme$ usmeNorm čuvgeslágan čuvgeslágan čuovgat+A+Attr+Der/lágan+A+Attr čuvgeslágan čuovgat+A+Attr+Der/lágan+A+Sg+Nom čuvgeslágan čuovgat+A+Attr+Der/lágan+A+Sg+Acc čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Ess čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Sg+Acc+PxSg1 čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Sg+Nom+PxSg1 čuvgeslágan čuovgat+A+Attr+Cmp#lága+N+Sg+Gen+PxSg1 čuvgeslágan čuovgat+A+AttrCmp+Der/lágan+A+Attr čuvgeslágan čuovgat+A+AttrCmp+Der/lágan+A+Sg+Nom čuvgeslágan čuovgat+A+AttrCmp+Der/lágan+A+Sg+Acc

Vi har to analyser: čuovgat+A+AttrCmp+Der/lágan+A.. čuovgat+A+Attr+Der/lágan+A...

Den ene må bort.

albbas commented 9 years ago

Comment 9821

Date: 2014-11-20 00:25:34 +0100 From: Lene Antonsen <>

Jeg har sjekka inn liste over ord som får Der/lágan analyse i korpus 2014-11-17. i langs/sme/src/morphology/incoming/Derlagan.txt Svært mange ord får ikke analyse, det må legges til mer systematisk sub, f.eks. for -lagan.

albbas commented 9 years ago

Comment 9954

Date: 2015-01-11 15:05:06 +0100 From: Trond Trosterud <>

(In reply to comment #33)

Vi har to analyser: čuovgat+A+AttrCmp+Der/lágan+A.. čuovgat+A+Attr+Der/lágan+A... Den ene må bort.

Det er sant, vl kan ikkje ha det slik. Lista

langs/sme/src/morphology/incoming/Derlagan.txt er eit godt utgangspunkt.

Det er mange stiar som gjev Der/lágan her, så vi må rydde.

Ein sti er i ATTR i affixes/adjectives.lexc, den går til NAMAT som også gjev Der/lágan Ein sti er via Rreal til R-LAGAN I tillegg er det for ein del adjektivleksika, men ikkje alle, referanse til NAMAT BUORRE, VIELGAT, NVDCompAttr_ISSORASSA-, HEITTOHA, FARGAT, ALLAGA, ATTRCONT, DenominalAdjsC, DenominalAdjsCLong, DenominalAdjsCShort

Fleire av dei adjektivleksikona som har eigen NAMAT-referanse har ikkje referanse til ATTR, så det er for så vidt ok med NAMAT der. Problemet er å ha både referanse via ATTR og ha referanse via Rreal.

I utgangspunktet har eg meir sans for AttrCmp enn for Attr, sjölv om det kanskje avvik litt frå praksis for dei andre ordklassene.

Når det gjeld pörsmål om ATTR vs. Rreal ser det ut for meg til at dette er eit empirisk spörsmål, og at det er ATTR som er rett veg. Skal vi bruke Rreal må vi ta Der/lágan ut av NAMAT.

Synspunkt?

albbas commented 9 years ago

Comment 10096

Date: 2015-02-09 18:05:11 +0100 From: Lene Antonsen <>

Jeg foreslår et møte om denne slik at vi får avslutta buggen, den er snart tre år gammel

albbas commented 9 years ago

Comment 10167

Date: 2015-02-13 15:56:44 +0100 From: Lene Antonsen <>

Jeg ser på -lágan i korpuset. Vi mangler sti fra proper til -lágan, f.eks.

Biedjovákki-lágan, Heaikka-lágan, Máhte-lágan, Oscar-lágan, Risten-lágan, Røkke-lágan, Åsele-lágan

Dessuten mangler fra ulikestavelsessubstantiver i nominativ (subformer?) hálddahuslágan, nivssatlágan

albbas commented 9 years ago

Comment 10335

Date: 2015-03-09 16:42:45 +0100 From: Trond Trosterud <>

Møte om Der/lágan: Eg er heilt samd. Neste veke (?) er Divvun-veke, skal vi ta det da?

albbas commented 9 years ago

Comment 10336

Date: 2015-03-09 16:47:58 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #38)

Møte om Der/lágan: Eg er heilt samd. Neste veke (?) er Divvun-veke, skal vi ta det da?

Høver bra. Ikkje måndag eller torsdag.

albbas commented 9 years ago

Comment 10384

Date: 2015-03-18 09:40:31 +0100 From: Sandra Nystø Rahka <>

SMJ har også dette NAMÁK-leksikonet med Der/agák, Der/belak, osv. Det jeg lurer på med disse derivasjonene er hvorfor hele ordet er definert som en derivasjon og ikke bare den siste bokstaven. For i lulesamisk, i allefall, så er denne denominal -k-derivasjonen relativt produktiv. De brukes ofte som andre ledd i et sammensatt ord, og første ledd er da gjerne substantiv, adjektiv eller tallord. Andreleddet er som regel et substantiv (dog jeg mistenker at noen er adjektiv, som buorak, stuorak, etc..), og eksakt hva som regulerer denne derivasjonen er ikke klart, men den har i allefall en videre distribusjon enn NAMÀK-leksikonet gir: Det burde åpnes for at flere substantiv kunne ta denne avledningsendelsen og ikke bare sammensatte ord (getjak, f.eks fungerer som enkeltord, og ikke bare som second comp slik den er regulert for nå +Der/getjak).

Spørsmålet her er altså hvorfor akkurat ordene i NAMÁK er plukket ut som second compounds som tar denne -k-avledningen. Forslaget mitt er at det lages en egen +Der/k tag og at disse andre derivasjonstaggene i NAMAK fjernes. Så kan det vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til)

SMJ har for øvrig ikke denne # i NAMÁK:

ådågirjak ådås+A+Attr+Der/girjak+A+Attr buorrebelak buorre+A+Attr+Der/belak+A+Sg+Nom

albbas commented 9 years ago

Comment 10385

Date: 2015-03-18 10:55:19 +0100 From: Lene Antonsen <>

Jeg støtter forslaget til Sandra. Dette stemmer også med hvordan dette beskrives f.eks. i N/S s. 638, og hvordan ordene oppfører seg morfofologisk (som en sammensetning).

vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til)

Når vi ikke vet opphavsordet, skal ordet leksikaliseres som det er.

Analysen vil da bli f.eks. guokte+Num+Der/suorpmat+A+Sg+Nom => guokte+Num+SgGenCmp+Cmp#suorbma+N+Der/t+A+Sg+Nom

Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg gir fortrinn for Cmp med lemmaet 'lága'

albbas commented 9 years ago

Comment 10386

Date: 2015-03-18 10:58:27 +0100 From: Lene Antonsen <>

(In reply to comment #41)

Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg gir fortrinn for Cmp med lemmaet 'lága'

Når jeg tenker meg om, så vil det være naturlig å beholde Der/lagan sjøl om vi omorganiserer de andre , og da blir heller ikke dette noe problem.

albbas commented 9 years ago

Comment 10387

Date: 2015-03-18 11:17:07 +0100 From: Sandra Nystø Rahka <>

(In reply to comment #41)

Jeg støtter forslaget til Sandra. Dette stemmer også med hvordan dette beskrives f.eks. i N/S s. 638, og hvordan ordene oppfører seg morfofologisk (som en sammensetning).

vurderes om det er noen tilfeller hvor originalsubstantivet ikke lenger brukes og hvor det da kan være fordelsmessig å beholde en slik type "leksikalisert derivasjon" (+Der/agák, feks er jeg ikke helt sikker på opphavsordet til)

Når vi ikke vet opphavsordet, skal ordet leksikaliseres som det er.

Da burde det muligens også få en +CmpNP/Suff-tagg for å unngå at ordet får stå alene. I smj er det allerede en del slike leksikaliserte -k-adjektiver, og de burde nok bli gitt en +CmpNP/Last-tagg da slike derivasjon bare funker som last cmp og ikke first.

Analysen vil da bli f.eks. guokte+Num+Der/suorpmat+A+Sg+Nom => guokte+Num+SgGenCmp+Cmp#suorbma+N+Der/t+A+Sg+Nom

Men da kommer vi tilbake til problemet som denne buggen starta med, nemlig at kombinasjonen # og Der/ for -lágan ord som ikke er leksikaliserte, i lookup2cg gir fortrinn for Cmp med lemmaet 'lága'