giellalt / lang-sma

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Southern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 3 forks source link

Lemma-form i leksikonet bør være norm (Bugzilla Bug 968) #27

Closed albbas closed 13 years ago

albbas commented 13 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 968

Date: 2011-03-12T15:47:29+01:00 From: Lene Antonsen <> To: Thomas Omma <> CC: lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2011-08-01T20:53:00+02:00

albbas commented 13 years ago

Comment 3816

Date: 2011-03-12 15:47:29 +0100 From: Lene Antonsen <>

sma-fst gir følgende analyser:

src$ dsma abessive+N+Sg+Nom abessive+N+Sg+Nom abessive abessive+N+Sg+Nom abessijve abessive+N+Sg+Nom abessïjve

src$ dsmaNorm abessive+N+Sg+Nom abessive+N+Sg+Nom abessijve abessive+N+Sg+Nom abessïjve

sma-lex: LEXICON IVE ! Until abessive / abessijve is decided... +Use/Sub:iv NIEJTE ; :ijv NIEJTE ; :ïjv NIEJTE ; +N+SgNomCmp:iv R ;

I følge sma-lex er normen: -ijve og -ïjve. Problemet er at når vi analyserer normformer, så får vi sub-form som lemma! Og vi kan ikke generere noen av norm-formene:

abessïjve abessïjve abessive+N+Sg+Nom

abessijve+N+Sg+Nom abessijve+N+Sg+Nom abessijve+N+Sg+Nom +?

Problemet ligger i noun-leksikonet: abessive:abess IVE ;

istedenfor burde det vært slik: abessijve:abess IVE ;

Det er 81 slike.

En annen ting at en del av -ijve/-ïjve/-ive substantiver viser til annet leksikon: attributijve:attributijv NIEJTE ; attributïjve:attributïjv NIEJTE ;

istendenfor burde det vært: attributijve:attribut IVE ;

Når det ikke er konsekvent lemmaform, så blir det problemer ved lemmatisering: "<Tïjjeperspektijve>" "tïjje#perspektive" N "tïjje#perspektijve" N

Jeg regner med at dette har blitt slik pga usikkerhet om normering, men at dette enkelt kan ryddes opp i?

En annen ting er om vi ikke bør ha likt lemma også i slike tilfeller: "" "nille" Po "nïlle" Po

dvs at i leksikonet burde det være: nïlle:nille Ad ;

albbas commented 13 years ago

Comment 3818

Date: 2011-03-13 13:12:01 +0100 From: Sjur Nørstebø Moshagen <>

Det bør alltid vera ei og berre ei lemmaform, og den bør vera innanfor norma. Det kan vera fleire grunnar til at sma ikkje fylgjer dette prinsippet konsekvent, men som du seier, så er det lett å rydda opp i. Endringar i lemma-formene endrar ikkje på resten av den morfologiske transduseren, men gjer andre prosessar (disambiguering, generering, MT, m.m.) meir føreseielege.

albbas commented 13 years ago

Comment 3819

Date: 2011-03-13 13:33:22 +0100 From: Lene Antonsen <>

Foreslår å endre navnet fra IVE til IJVE for å tydeliggjøre bruken. En annen ting, de lemmaene som har både -i- og -ï- som norm, hvilken av de to bør stå i leksikonet som upperform? Når det gjelder de omtalte -ijve eller -ïjve? Vi bør vel ha et fast prinsipp?

albbas commented 13 years ago

Comment 3820

Date: 2011-03-13 13:45:14 +0100 From: Sjur Nørstebø Moshagen <>

Eit bra forslag å endra leksikonnamnet frå IVE til IJVE.

Når det gjeld valet av i eller ï i lemma (og tilsvarande andre alternative lemmaformer innanfor norma), så har vi ikkje noko fast prinsipp. Eg kan koma på i alle fall fire moglege kriterium:

Eg har inga sterke meiningar om kriterium for valet av lemmaform (lemmaformvalkriterium).

albbas commented 13 years ago

Comment 3821

Date: 2011-03-13 15:03:11 +0100 From: Trond Trosterud <>

Eg har sterke meiningar om i eller ï som lemmaform: ï kan valfritt bli skrive som i (de facto, i det minste). Det omvendte gjeld ikkje. Dermed bør lemmaet ha ï for å fortelje at dette er ei form der vi kan veksle mellom i og ï. Har lemmaet i veit vi ikkje det.

IJVE som namn er fint.

albbas commented 13 years ago

Comment 3853

Date: 2011-04-21 15:52:28 +0200 From: Lene Antonsen <>

Jeg har laget IJVE leksikon med -ïjve og -ijve som norm og -ive som sub.

albbas commented 13 years ago

Comment 4457

Date: 2011-06-09 14:49:42 +0200 From: Lene Antonsen <>

I forbindelse med oppfølging av sma-normeringsvedtak bør prinsippet med normativ form som lemma også for subformer følges. Hvis det er to former som er normative, bør man likevel velge en av dem som lemma hvis det er snakk om ortografiske varianter.

istedenfor: regionaale:regiona AALE ; regijonaale+Use/Sub:regijona AALE ; bør det være

regionaale:regiona AALE ; regionaale+Use/Sub:regijona AALE ;

Hvis man ikke følger dette prinsippet blir det dårligere ordparallellisering og det medfører også at man må legge til alle subformer i settene i den syntaktiske analysatoren (sma-dis.rle).

albbas commented 13 years ago

Comment 4458

Date: 2011-06-09 15:16:17 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #6)

Hvis man ikke følger dette prinsippet blir det dårligere ordparallellisering og det medfører også at man må legge til alle subformer i settene i den syntaktiske analysatoren (sma-dis.rle).

(kort kommentar for å sjekka at bz funkar som han skal:)

det er viktig at vi held oss til eitt lemma pr leksem - det har mange praktiske konsekvensar dersom vi ikkje gjer det.

albbas commented 13 years ago

Comment 4605

Date: 2011-06-22 14:09:38 +0200 From: Thomas Omma <>

this is worked with

albbas commented 13 years ago

Comment 4614

Date: 2011-06-22 15:41:46 +0200 From: Sjur Nørstebø Moshagen <>

Thomas, you did not provide a test or something that documents that all lemma forms are norm forms. A bug should not be closed without such a test in normal cases. One possible test could be (perhaps slightly simplified):

grep --exclude=sma-lex.txt ';' *lex.txt | grep -v '^!' | cut -d':' -f1 | tr -s ' ' | cut -d ' ' -f1 | usmaNorm | grep '\?' | wc -l

If the result is 0, the test passes (ie all lemmas are recognised by the normative transducer), if not, there are still words to be checked (or the lemma extraction above is to simplistic - which it probably is:).

I also believe we have a separate baseform-test for the analyser — please check the makefile.

Reopened until verified.

albbas commented 13 years ago

Comment 4616

Date: 2011-06-22 21:23:17 +0200 From: Thomas Omma <>

ENVIRONMENT: LOOKUP_FLAGS default value is: cKv29 0

albbas commented 13 years ago

Comment 4624

Date: 2011-06-23 10:38:43 +0200 From: Lene Antonsen <>

Har du testa kommandoen Sjur? Den er ikke helt bra.... Man ender ut bare med filnavnene :-)

Vær ellers obs på at delimiter mellom lemma og resten kan være både mellomrom, + og :
Og så må vi fjerne #

Og så er det entryer som bare fungerer i sammensetninger.

albbas commented 13 years ago

Comment 4625

Date: 2011-06-23 11:11:34 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #11)

Har du testa kommandoen Sjur? Den er ikke helt bra.... Man ender ut bare med filnavnene :-)

Nei, jf:

(In reply to comment #9)

One possible test could be (perhaps slightly simplified): ... ... (or the lemma extraction above is to simplistic - which it probably is:).

Fint om du kan retta opp og forbetra lemmaekstraheringa - eg hadde ikkje tid til meir :/

albbas commented 13 years ago

Comment 4626

Date: 2011-06-23 11:12:23 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #12)

(In reply to comment #11)

Har du testa kommandoen Sjur? Den er ikke helt bra.... Man ender ut bare med filnavnene :-)

Nei, jf:

Eg burde sjølvsagt ha skrive at kommandoen var utesta...

albbas commented 13 years ago

Comment 4627

Date: 2011-06-23 13:40:59 +0200 From: Trond Trosterud <>

Det er ikkje ein god ide å ta alle andre lex-filer enn sma-lex.txt, det er masse morfologi i fleire av dei andre filene. Ta heller POS for POS.

Her er ein kommando (det er mange vegar til målet) for å lage lemmaliste substantiv:

grep ';' noun-sma-lex.txt | grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#^]'

Skilnad på denne kommandoen og sjur sin: Filnamnet blir ikkje med :-) eg endrar + og : til mellomrom, alle tre symbola er lemma-grense eg fjernar # og ^ frå lemmaet.

Det å fjerne # må vi gjere. Derimot er det ikkje bra at vi må fjerne ^. Dette symbolet har ikkje noko å gjere i lemmaforma, og eg har allereie fjerna det frå noun-sma-lex.txt:

r43353 | trond | 2011-06-10 20:15:31 +0200 (fre, 10 jun 2011) | 1 line Removed ^ from lefthand side, also removed doublets.

... så det ser ut til at nokon har sett ^-ane inn att. Vi treng dei ikkje i lemmaet, dei gjer lemmasøk og lemmaanalyse vanskeleg, så eg ser gjerne at vi held dei ute.

Når det er sagt ser det ut til at Thomas har problem med lookup, det er sjölvsagt eit verre problem. Utan lookup, inga analyse i det heile.

albbas commented 13 years ago

Comment 4628

Date: 2011-06-23 13:45:29 +0200 From: Trond Trosterud <>

Mystisk: Når eg no går attende for å fjerne dei nyinsette ^-ane finn eg dei ikkje. ... og eg kunne sverge på at eg hadde sett dei også etter 'cut -d" " -f1'. Så på det punktet er altså alt i orden :-)

albbas commented 13 years ago

Comment 4630

Date: 2011-06-23 22:19:33 +0200 From: Trond Trosterud <>

Substantiv i sma:

Substantiv-lemma i sma (ikkje R) som ikkje blir godtatt av sma.fst (For desse må vi ha skrivefeil eller leksikonfeil.):

asendente,denare,elektrokompressore,elysijume,entusijasme,epikureejer,evangelijume,furaasje,gladijaatore,kassa-apparaate,marhkesaemie,marhkesaemie,mirakeldåaktere,oratorijume,pastore,presse-etihke,provisorijume,radijaatore,rovtore,serograafe,sjïlhte,sulfatsellulovse,sulfatsellulovse,sulfittsellulovse,sulfittsellulovse,senije,serograafe,ålkoerïjhke,vampyjre,vampyjre (30)

Substantiv-lemma i sma som blir godtatt av sma.fst, men som ikkje blir godtatt av sma-norm.fst: (her kan det vere subformer som lemma):

aahtjetjeguaktah,algebraaje,april,august,baarkohke,bröökesieve,buletije,desember,eejhteghtjåahka,eejhtehtjåahka,februar,gaavnedimmietjåanghka,galkasaske,håagkhstaavra,håannege,jaepietjåahka,jaepietjåanghka,januar,juli,juni,jïjtjesvihtijemaasjijna,kavijare,komitée,kremasjovne,kultuvreseentere,kåånte,laamhpa,maajehööhpehtimmie,maalhte,mai,mars,matrijaarke,nautuluse,noerthe,november,oktober,regionaldepartemeente,saabate,seammavierhtege,september,sjeema,skoltesaemie,staadione,teekstegïetedalleme,teevetje,tjåahkoe,tsegk-ietnie,vearbe,veerbesyjjehtimmie,våhkatjåanghka,åssjalomme (52)

kommandar: kommando: ikkje i sma.fst: grep ';' noun-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#]'|usma|grep '\?'|cut -f1|tr '\n' ','|see i sma.fst men ikkje i sma-norm.fst: grep ';' noun-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#]'|usmaNorm|grep '?'|cut -f1|usma|grep -v '?'|cut -f1|sort|uniq|tr '\n' ','|see

albbas commented 13 years ago

Comment 4631

Date: 2011-06-23 22:25:56 +0200 From: Trond Trosterud <>

Verb i sma:

Verblemma som ikkje blir godtatt av sma.fst: eksplisiteeredh, eksplisiteeredh, opaleseeredh,

Verblemma som blir godtatt av sma.fst men ikkje sma-norm.fst: aajkanidh, adtjodh, baahkemidh, baahtjehtidh, baddanidh, baehkiedidh, baehkierdidh, baejkiestidh, baeskiedidh, baetjkiedidh, beapmedidh, biededidh, biektjiedidh, biektjierdidh, biektjieridh, bihtjiedidh, bijjiemdidh, bloggedh, blææntedh, bæælhkedh, dabranedtedh, daebpiemdidh, delegrafeeredh, dijmiemdidh, dissosieeredh, eksproprieeredh, faaradidh, feilvurdeeredh, gaelniemdidh, gaertjiemdidh, gehtiemdidh, geljiemdidh, gemtiemdidh, giedtjiemdidh, giehpiemdidh, giektsiemdidh, gieriemdidh, gievtiemdidh, guhkiemdidh, jaedtiemdidh, jalkemdidh, jelliemdidh, jilliemdidh, jipsadidh, jissiemdidh, joevjemdidh, jorpemdidh, juekiesovvedh, jïegkemdidh, kaarhteddidh, kraanghkeldidh, kråvvadidh, kvihteeredh, kviteeredh, laskamdidh, lievliemdidh, lisensieeredh, lissiemdidh, lydisoleeredh, låebliemdidh, låedtjiemdidh, låesjiemdidh, lïenemdidh, masseproduseeredh, miehtjiemdidh, mulliemdidh, njilliemdidh, pa'edidh, prijoriteredh, sameksisteeredh, siegkiemdidh, sikkerhetsklareeredh, skaepedidh, skiltedh, skruvvedidh, skuvlestruktedh, solliciteeredh, tjolkemdidh, tjåektjiemdidh, vaeniemdidh, verkiemdidh, vierriemdidh, vijdiemdidh, vijriemdidh, ååntjelidh, åårganiseredh,

Kommandoar: grep ';' verb-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d "[#%]"|usma|grep '\?'|cut -f1|tr '\n' ','|see grep ';' verb-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#%]'|usmaNorm|grep '?'|cut -f1|usma|grep -v '?'|cut -f1|sort|uniq|tr '\n' ','|see

albbas commented 13 years ago

Comment 4632

Date: 2011-06-23 22:44:12 +0200 From: Trond Trosterud <>

Adjektiv i sma:

Adjektiv som ikkje blir godkjent av sma.fst: transendentaale,transendentaale,fåskoes,råavthsah,slaetsies,kraavhpijes,våaltoes,åavtoes,

Adjektiv som blir godkjent av sma.fst, men ikkje av sma-norm.fst:

baltiske, bueriengielhts, bueriesjigneds, bueriesjugneds, bueriesjugnehts, bulgarske, burmanske, ceylåanske, chileenske, costaricanske, dominikanske, ecuadorianske, ektie, emosjonelle, emosjovnelle, fijianske, filippïnske, flaamske, funksjonelle, funksjovnelle, fysikalske, gaasedenmasten, gabtehaartegs, germanske, guinean, infernalske, irrasjovnelle, kolombianske, konstitusjovnelle, konvensjovnelle, kubanske, leksikalske, libyske, martialske, martsialske, matriarkalske, nepalske, nigerianske, opposisjovnelle, orientalske, pakistanske, palestïnske, panamanske, paraguyanske, patriarkalske, presbyterianske, profesjovnelle, qutarske, rasjovnelle, redaksjovnelle, republikaanske, romanske, romerske, rumeenske, råatjkoes, salvadoranske, sangvïnske, sensasjonelle, sensasjovnelle, sicilianske, sosiokultuvrelle, spartanske, spedalske, tabellarïske, tradisjovnelle, ukonvensjonelle, ukonvensjovnelle, unormaale,

(same kommando som for verb)

albbas commented 13 years ago

Comment 4633

Date: 2011-06-24 00:06:29 +0200 From: Trond Trosterud <>

Now, the N, V, A words not recognised by sma.fst are corrected (the hyphen bug still creeps in, a full test will in any case have to be done. Still to do: the sma.fst ones not recognised by sma-norm.fst

I leave those normative issues to Thomas.

albbas commented 13 years ago

Comment 4634

Date: 2011-06-24 10:33:08 +0200 From: Thomas Omma <>

februar januar juli juni mars

names of month's, SUb-marked, what to do with them? we are not sure about the normative forms

albbas commented 13 years ago

Comment 4635

Date: 2011-06-24 12:18:24 +0200 From: Thomas Omma <>

can't get the kommandos to work, though

albbas commented 13 years ago

Comment 4639

Date: 2011-06-24 15:30:05 +0200 From: Trond Trosterud <>

Only sub forms of a lexeme is bad, it breaks the system. At least one form should be non-sub. Pick the best one.

albbas commented 13 years ago

Comment 4640

Date: 2011-06-24 15:34:18 +0200 From: Trond Trosterud <>

"can't get the kommandos to work, though" ... a bit too unspecific error message.

  1. stå i gt/sma/src

  2. kommandoe var (td.)

grep ';' verb-sma-lex.txt | grep -v ' R '| grep -v '^!' | tr '[+:]' ' '| cut -d" " -f1| tr -d "[#%]"| usma| grep '\?'| cut -f1| tr '\n' ','| see

Det kan hende det er usma (og i ein annan kommando usmaNorm) som ikkje fungerer. I tilfelle kan du bruke dine eigne aliasar i staden:

usma = lookup ../bin/sma.fst

usmaNorm = lookup ../bin/sma-norm.fst

albbas commented 13 years ago

Comment 4727

Date: 2011-08-01 03:49:28 +0200 From: Thomas Omma <>

"Only sub forms of a lexeme is bad, it breaks the system. At least one form should be non-sub. Pick the best one."

hmm...there does not seem to be any best one here...:O

albbas commented 13 years ago

Comment 4728

Date: 2011-08-01 08:57:05 +0200 From: Trond Trosterud <>

(In reply to comment #24)

hmm...there does not seem to be any best one here...:O

Then, just pick one by random. Why? Because if we do not choose one, we cannot use the word when generating text.

albbas commented 13 years ago

Comment 4729

Date: 2011-08-01 10:12:35 +0200 From: Thomas Omma <>

but then we get possibly non-normative forms as "normative"...:O

albbas commented 13 years ago

Comment 4731

Date: 2011-08-01 11:23:28 +0200 From: Trond Trosterud <>

but then we get possibly non-normative forms as "normative"...:O

How can a word have only non-normative forms? Should it be there at all, then?

Hmm, yes, it probably should.

Today we have: +Use/Sub ==> implies NG (not-generate) +Use/NG ==> not Sub, but not generated.

So, if the goal is to have our generator speak only correct language, this word will never be generated. The Sg Nom of "februar" is then -- nothing.

We thus need to revise the tags. The problem is the implication: +Use/Sub shall not be generated.

One possibility is to have a further tag +Use/SubGen (substandard but generated, since we have to). Another is to skil the implication, change all +Use/Sub to +Use/Sub+Use/NG and then remove +Use/NG for "februar".

Views?

albbas commented 13 years ago

Comment 4732

Date: 2011-08-01 13:35:51 +0200 From: Thomas Omma <>

in my opinion the base-form, the nominative form, of these word can be accepted as normative, but not the inflected forms

albbas commented 13 years ago

Comment 4733

Date: 2011-08-01 20:37:58 +0200 From: Lene Antonsen <>

Minner om denne: http://giellatekno.uit.no/doc/lang/sma/lemma.html

albbas commented 13 years ago

Comment 4734

Date: 2011-08-01 20:53:00 +0200 From: Thomas Omma <>

HA-HA! NOW I CLOSE!

gt $ svn ci -m "LeftSub-marked februar, januar, juli, juni, mars" sma/src/noun-sma-lex.txt Sending sma/src/noun-sma-lex.txt Transmitting file data . Committed revision 44309.