Closed albbas closed 5 years ago
Date: 2016-02-12 16:24:56 +0100
From: Lene Antonsen <
Vi har et system med +N+Cmp for enkelte sammensetninger istedenfor +Cmp/SgNom+Cmp. Jeg foreslår at vi har samme Cmp tagger for alle, også den første, slik at det er lettere å gå fra språk til språk. For slike som árgabeai- og kultur-, kunne vi heller ha en ekstra tag for å vise at det er en forkorta sammensetning, eks. Cmp/Sh.
For MT: her er det viktig å ha fulle Cmp strenger slik at man kan generere ordene.
sme$ usme suomanieida suomanieida suopma+Err/Lex+N+Cmp/SgGen+Cmp#nieida+N+Sg+Nom suomanieida suoma+N+Cmp#nieida+N+Sg+Nom
árgabeainieida árgabeai+N+Cmp#nieida+N+Sg+Nom
árgabeaivenieida árgabeaivi+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom
skuvlanieida skuvlanieida skuvla+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom skuvlanieida skuvla+N+Err/Orth+Cmp/SgNom+Cmp#nieida+N+Sg+Nom skuvlanieida skuvlanieida+N+Sg+Nom
kulturnieida kultuvra+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom
headjanieida heajat+N+Cmp/SgNom+Cmp#nieida+N+Sg+Nom
suoma+CmpN/SgG+N+Sem/Dummytag:suoma%> Rreal ; árgabeai+CmpN/SgN+Sem/Dummytag+N:árga#beai Rnoun ;
Date: 2016-02-15 10:20:35 +0100
From: Lene Antonsen <
det er lettere å gå fra språk til språk. For slike som árgabeai- og kultur-,
jeg foreslår å skrive fullt ord som lemma, slik at det kan oversettes: árgabeaive, kultuvra
Date: 2016-02-18 09:17:48 +0100
From: Thomas Omma <
ja, that is good
Date: 2016-02-22 10:40:14 +0100
From: Thomas Omma <
sme $ svn ci -m "gave full lemma for prefixes, bug2154" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 129848.
Date: 2016-02-22 10:51:52 +0100
From: Lene Antonsen <
Hva med hovedsaka i denne bugzillaen? er den også løst?
suomanieida suoma+N+Cmp#nieida+N+Sg+Nom
Date: 2016-02-22 10:57:41 +0100
From: Thomas Omma <
shall it be suopma ?
Date: 2016-02-22 11:35:39 +0100
From: Thomas Omma <
jes, suopma
and Cmp/Sh
and compound tags
Date: 2016-03-30 10:55:57 +0200
From: Thomas Omma <
sme $ svn ci -m "according to bug2154, suopma as lemma" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131571.
but it can't be right that it shall have Cmp/Sh?
Date: 2016-03-30 14:02:23 +0200
From: Lene Antonsen <
Problemet er at vi har to typer Cmp-tagger:
+N+Cmp/SgNom+Cmp +N+Cmp#
og dette er språkavhengig.
Jeg foreslår at alle sammensetninger skal ha +Cmp/SgNom (+Cmp/SgGen +Cmp/Attr osv)
Date: 2016-03-30 14:24:40 +0200
From: Thomas Omma <
aha?
CmpN/SgN vs. CmpN/SgNom
Date: 2016-03-30 15:46:53 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Lene Antonsen from comment #8)
Problemet er at vi har to typer Cmp-tagger:
+N+Cmp/SgNom+Cmp +N+Cmp#
og dette er språkavhengig.
Jeg foreslår at alle sammensetninger skal ha +Cmp/SgNom (+Cmp/SgGen +Cmp/Attr osv)
To ting:
+Cmp/XXX er språkavhengig, fordi XXX er språkspesifikt (men stort sett likt mellom dei samiske språka, og bør gjerast likt over alt der det er mogleg).
+Cmp er språkUavhengig for alle språk som har samansetjingar, og blir brukt som ein minimumsmarkør for samansetjingar. Denne taggen er det òg som blir brukt til vekting av samansette ord, så det kan vera problematisk å ta han vekk.
Eller sagt på ein annan måte:
+Cmp/XXX seier noko om formen på samansetjinga +Cmp seier at noko er ei samansetjing
Sjølv om den siste er implisert i den fyrste, er dei framleis ikkje like, og dei tener ulike formål. Eg vil vera forsiktig med å fjerna +Cmp-taggen, slik eg forstår at du føreslår.
Date: 2016-03-30 16:23:37 +0200
From: Lene Antonsen <
Eg vil vera forsiktig med å fjerna +Cmp-taggen, slik
eg forstår at du føreslår.
Nei, jeg mener ikke å fjerne noe, men tvert i mot å legge til:
+N+Cmp# => +N+Cmp/SgNom+Cmp# (evt +N+Cmp/SgGen+Cmp# osv)
Date: 2016-03-31 10:10:46 +0200
From: Thomas Omma <
very soon i check in
while the dihkki is running:
it's not entyrely easy, some examples:
bođu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:bođu Rreal ; ceakko+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:ceakko Rreal ; golmmaruovttu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:golmma#ruovttu%> Rreal ; guovttináli+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:guovtti#náli%> Rreal ; sis+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sis%> Rreal ; sisa+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sisa%> Rreal ; mikro+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:mikro Rreal ;
most are though clear
Date: 2016-03-31 10:12:28 +0200
From: Thomas Omma <
sme $ svn ci -m "Cmp-tag work with FirstComponent words, to get consistency, Bug2154" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131614.
Date: 2016-03-31 10:13:39 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Thomas Omma from comment #12)
very soon i check in
while the dihkki is running:
it's not entyrely easy, some examples:
bođu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:bođu Rreal ; ceakko+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:ceakko Rreal ; golmmaruovttu+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:golmma#ruovttu%> Rreal ; guovttináli+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:guovtti#náli%> Rreal ; sis+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sis%> Rreal ; sisa+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:sisa%> Rreal ; mikro+CmpN/SgN+Sem/Dummytag+N+Cmp/SgNom:mikro Rreal ;
NB! Det er viktig at taggane kjem i ei viss rekkjefylgje:
Date: 2016-03-31 10:29:50 +0200
From: Thomas Omma <
sme $ svn ci -m "changed tag order, result is beautiful to see" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131616.
Date: 2016-04-02 10:08:11 +0200
From: Lene Antonsen <
- alle +Cmp-taggar før semantiske taggar og POS
- POS før Sem
Dette gjelder ikke synlige +Cmp-taggar, da kommer de mellom lemma og PoS, slik som her:
sme$ usmedis
vahkkobeaidoaibma vahkkobeaivi+Cmp/Sh+N+Sem/Dummytag+Cmp#doaibma+N+Sem/Act+Sg+Nom thai-biebmu thai+Cmp/SgGen+N+Sem/Dummytag+Cmp-#biebmu+N+Sem/Event_Food+Sg+Nom
Slik er rekkefølgen no: thai+CmpN/SgN+Cmp/SgGen+N+Sem/Dummytag:thai RHyph ;
Den burde være slik: thai+CmpN/SgN+N+Sem/Dummytag+Cmp/SgGen:thai RHyph ;
Date: 2016-04-04 08:49:22 +0200
From: Thomas Omma <
so this means I have more work?! (Y) (Y) (Y)
(In reply to Lene Antonsen from comment #16)
- alle +Cmp-taggar før semantiske taggar og POS
- POS før Sem
Dette gjelder ikke synlige +Cmp-taggar, da kommer de mellom lemma og PoS, slik som her:
sme$ usmedis
vahkkobeaidoaibma vahkkobeaivi+Cmp/Sh+N+Sem/Dummytag+Cmp#doaibma+N+Sem/Act+Sg+Nom thai-biebmu thai+Cmp/SgGen+N+Sem/Dummytag+Cmp-#biebmu+N+Sem/Event_Food+Sg+Nom
Slik er rekkefølgen no: thai+CmpN/SgN+Cmp/SgGen+N+Sem/Dummytag:thai RHyph ;
Den burde være slik: thai+CmpN/SgN+N+Sem/Dummytag+Cmp/SgGen:thai RHyph ;
Date: 2016-04-06 11:22:23 +0200
From: Thomas Omma <
sme $ svn ci -m "change tag ordering, bug2154" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 131854.
Date: 2016-12-14 23:30:21 +0100
From: Lene Antonsen <
Jeg tok en systematisk gjennomgang:
grep ':.* R[nrH]' src/morphology/stems/nouns.lexc |grep -v Cmp/ |less
og la manglende tagger til de resterende som går til R-leksikoner, sjekka inn i revision 145339
This issue was created automatically with bugzilla2github
Bugzilla Bug 2154
Date: 2016-02-12T16:24:56+01:00 From: Lene Antonsen <>
To: Thomas Omma <>
CC: lene.antonsen, linda.wiechetek, maja.l.kappfjell, sandra.rahka, sjur.n.moshagen, trond.trosterud
Last updated: 2019-10-01T12:50:37+02:00