giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

Cmp bør ha konsistente tagger ( #259

Closed albbas closed 5 years ago

albbas commented 8 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2154

Date: 2016-02-12T16:24:56+01:00 From: Lene Antonsen <> To: Thomas Omma <> CC: lene.antonsen, linda.wiechetek, maja.l.kappfjell, sandra.rahka, sjur.n.moshagen, trond.trosterud

Last updated: 2019-10-01T12:50:37+02:00

albbas commented 8 years ago

Comment 11134

Date: 2016-02-12 16:24:56 +0100 From: Lene Antonsen <>

Vi har et system med +N+Cmp for enkelte sammensetninger istedenfor +Cmp/SgNom+Cmp. Jeg foreslår at vi har samme Cmp tagger for alle, også den første, slik at det er lettere å gå fra språk til språk. For slike som árgabeai- og kultur-, kunne vi heller ha en ekstra tag for å vise at det er en forkorta sammensetning, eks. Cmp/Sh.

For MT: her er det viktig å ha fulle Cmp strenger slik at man kan generere ordene.

sme$ usme suomanieida suomanieida suopma+Err/Lex+N+Cmp/SgGen+Cmp#nieida+N+Sg+Nom suomanieida suoma+N+Cmp#nieida+N+Sg+Nom

árgabeainieida árgabeai+N+Cmp#nieida+N+Sg+Nom

árgabeaivenieida árgabeaivi+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom

skuvlanieida skuvlanieida skuvla+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom skuvlanieida skuvla+N+Err/Orth+Cmp/SgNom+Cmp#nieida+N+Sg+Nom skuvlanieida skuvlanieida+N+Sg+Nom

kulturnieida kultuvra+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom

headjanieida heajat+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom

suoma+CmpN/SgG+N+Sem/Dummytag:suoma%> Rreal ; árgabeai+CmpN/SgN+Sem/Dummytag+N:árga#beai Rnoun ;

albbas commented 8 years ago

Comment 11135

Date: 2016-02-15 10:20:35 +0100 From: Lene Antonsen <>

det er lettere å gå fra språk til språk. For slike som árgabeai- og kultur-,

jeg foreslår å skrive fullt ord som lemma, slik at det kan oversettes: árgabeaive, kultuvra

albbas commented 8 years ago

Comment 11144

Date: 2016-02-18 09:17:48 +0100 From: Thomas Omma <>

ja, that is good

albbas commented 8 years ago

Comment 11172

Date: 2016-02-22 10:40:14 +0100 From: Thomas Omma <>

sme $ svn ci -m "gave full lemma for prefixes, bug2154" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 129848.

albbas commented 8 years ago

Comment 11173

Date: 2016-02-22 10:51:52 +0100 From: Lene Antonsen <>

Hva med hovedsaka i denne bugzillaen? er den også løst?

suomanieida suoma+N+Cmp#nieida+N+Sg+Nom

albbas commented 8 years ago

Comment 11174

Date: 2016-02-22 10:57:41 +0100 From: Thomas Omma <>

shall it be suopma ?

albbas commented 8 years ago

Comment 11178

Date: 2016-02-22 11:35:39 +0100 From: Thomas Omma <>

jes, suopma

and Cmp/Sh

and compound tags

albbas commented 8 years ago

Comment 11260

Date: 2016-03-30 10:55:57 +0200 From: Thomas Omma <>

sme $ svn ci -m "according to bug2154, suopma as lemma" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131571.

but it can't be right that it shall have Cmp/Sh?

albbas commented 8 years ago

Comment 11267

Date: 2016-03-30 14:02:23 +0200 From: Lene Antonsen <>

Problemet er at vi har to typer Cmp-tagger:

+N+Cmp/SgNom+Cmp +N+Cmp#

og dette er språkavhengig.

Jeg foreslår at alle sammensetninger skal ha +Cmp/SgNom (+Cmp/SgGen +Cmp/Attr osv)

albbas commented 8 years ago

Comment 11268

Date: 2016-03-30 14:24:40 +0200 From: Thomas Omma <>

aha?

CmpN/SgN vs. CmpN/SgNom

albbas commented 8 years ago

Comment 11269

Date: 2016-03-30 15:46:53 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Lene Antonsen from comment #8)

Problemet er at vi har to typer Cmp-tagger:

+N+Cmp/SgNom+Cmp +N+Cmp#

og dette er språkavhengig.

Jeg foreslår at alle sammensetninger skal ha +Cmp/SgNom (+Cmp/SgGen +Cmp/Attr osv)

To ting:

+Cmp/XXX er språkavhengig, fordi XXX er språkspesifikt (men stort sett likt mellom dei samiske språka, og bør gjerast likt over alt der det er mogleg).

+Cmp er språkUavhengig for alle språk som har samansetjingar, og blir brukt som ein minimumsmarkør for samansetjingar. Denne taggen er det òg som blir brukt til vekting av samansette ord, så det kan vera problematisk å ta han vekk.

Eller sagt på ein annan måte:

+Cmp/XXX seier noko om formen på samansetjinga +Cmp seier at noko er ei samansetjing

Sjølv om den siste er implisert i den fyrste, er dei framleis ikkje like, og dei tener ulike formål. Eg vil vera forsiktig med å fjerna +Cmp-taggen, slik eg forstår at du føreslår.

albbas commented 8 years ago

Comment 11270

Date: 2016-03-30 16:23:37 +0200 From: Lene Antonsen <>

Eg vil vera forsiktig med å fjerna +Cmp-taggen, slik

eg forstår at du føreslår.

Nei, jeg mener ikke å fjerne noe, men tvert i mot å legge til:

+N+Cmp# => +N+Cmp/SgNom+Cmp# (evt +N+Cmp/SgGen+Cmp# osv)

albbas commented 8 years ago

Comment 11271

Date: 2016-03-31 10:10:46 +0200 From: Thomas Omma <>

very soon i check in

while the dihkki is running:

it's not entyrely easy, some examples:

bođu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:bođu Rreal ; ceakko+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:ceakko Rreal ; golmmaruovttu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:golmma#ruovttu%> Rreal ; guovttináli+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:guovtti#náli%> Rreal ; sis+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sis%> Rreal ; sisa+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sisa%> Rreal ; mikro+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:mikro Rreal ;

most are though clear

albbas commented 8 years ago

Comment 11272

Date: 2016-03-31 10:12:28 +0200 From: Thomas Omma <>

sme $ svn ci -m "Cmp-tag work with FirstComponent words, to get consistency, Bug2154" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131614.

albbas commented 8 years ago

Comment 11273

Date: 2016-03-31 10:13:39 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Thomas Omma from comment #12)

very soon i check in

while the dihkki is running:

it's not entyrely easy, some examples:

bođu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:bođu Rreal ; ceakko+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:ceakko Rreal ; golmmaruovttu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:golmma#ruovttu%> Rreal ; guovttináli+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:guovtti#náli%> Rreal ; sis+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sis%> Rreal ; sisa+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sisa%> Rreal ; mikro+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:mikro Rreal ;

NB! Det er viktig at taggane kjem i ei viss rekkjefylgje:

albbas commented 8 years ago

Comment 11274

Date: 2016-03-31 10:29:50 +0200 From: Thomas Omma <>

sme $ svn ci -m "changed tag order, result is beautiful to see" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131616.

albbas commented 8 years ago

Comment 11286

Date: 2016-04-02 10:08:11 +0200 From: Lene Antonsen <>

  • alle +Cmp-taggar før semantiske taggar og POS
  • POS før Sem

Dette gjelder ikke synlige +Cmp-taggar, da kommer de mellom lemma og PoS, slik som her:

sme$ usmedis

vahkkobeaidoaibma vahkkobeaivi+Cmp/Sh+N+Sem/Dummytag+Cmp#doaibma+N+Sem/Act+Sg+Nom thai-biebmu thai+Cmp/SgGen+N+Sem/Dummytag+Cmp-#biebmu+N+Sem/Event_Food+Sg+Nom

Slik er rekkefølgen no: thai+CmpN/SgN+Cmp/SgGen+N+Sem/Dummytag:thai RHyph ;

Den burde være slik: thai+CmpN/SgN+N+Sem/Dummytag+Cmp/SgGen:thai RHyph ;

albbas commented 8 years ago

Comment 11288

Date: 2016-04-04 08:49:22 +0200 From: Thomas Omma <>

so this means I have more work?! (Y) (Y) (Y)

(In reply to Lene Antonsen from comment #16)

  • alle +Cmp-taggar før semantiske taggar og POS
  • POS før Sem

Dette gjelder ikke synlige +Cmp-taggar, da kommer de mellom lemma og PoS, slik som her:

sme$ usmedis

vahkkobeaidoaibma vahkkobeaivi+Cmp/Sh+N+Sem/Dummytag+Cmp#doaibma+N+Sem/Act+Sg+Nom thai-biebmu thai+Cmp/SgGen+N+Sem/Dummytag+Cmp-#biebmu+N+Sem/Event_Food+Sg+Nom

Slik er rekkefølgen no: thai+CmpN/SgN+Cmp/SgGen+N+Sem/Dummytag:thai RHyph ;

Den burde være slik: thai+CmpN/SgN+N+Sem/Dummytag+Cmp/SgGen:thai RHyph ;

albbas commented 8 years ago

Comment 11297

Date: 2016-04-06 11:22:23 +0200 From: Thomas Omma <>

sme $ svn ci -m "change tag ordering, bug2154" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131854.

albbas commented 7 years ago

Comment 11852

Date: 2016-12-14 23:30:21 +0100 From: Lene Antonsen <>

Jeg tok en systematisk gjennomgang:

grep ':.* R[nrH]' src/morphology/stems/nouns.lexc |grep -v Cmp/ |less

og la manglende tagger til de resterende som går til R-leksikoner, sjekka inn i revision 145339