giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

Unngå språklig materiale på lemmasida i affix- og compounds-filer ( #289

Open albbas opened 7 years ago

albbas commented 7 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2424

Date: 2017-09-20T10:31:47+02:00 From: Lene Antonsen <> To: Thomas Omma <> CC: @inga.l.mikkelsen@uit.no, lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud

Last updated: 2020-10-26T15:43:58+01:00

albbas commented 7 years ago

Comment 12585

Date: 2017-09-20 10:31:47 +0200 From: Lene Antonsen <>

Jeg foreslår at vi legger alle lemmaer bare i stems-filer, og ikke i affix- og compoundsfiler. Dette gjelder alle språk, men det er mest i sme vi har det i dag. Grunner: 1) det er vanskeligere å korrigere og debugge stier fordi man forventer at lemmaene skal være i stems-filer 2) det er vanskeligere (umulig?) å lage sjekk-tagg-skript som omfatter alle tagger, også dem som er skrevet uten +, selv om de skulle hatt det, se behovet i innsjekkinger rev 157226 og 157224

Konkrete forslag:

I affixes/adjectives.lexc: NomActVEARA flyttes til stems/adjectives.lexc:

I affixes/nouns.lexc: ALLGUOVT flyttes til stems/nouns.lexc % dihte legges i stems/adverbs.lexc men med sti fra leksikonet hvor de er nå

I compounding.lexc:

LEXICON Prefixes flyttes til stems/nouns.lexc eller evt til et nytt stems/prefixes.lexc

albbas commented 7 years ago

Comment 12586

Date: 2017-09-20 10:52:01 +0200 From: Thomas Omma <>

seems good

albbas commented 7 years ago

Comment 12587

Date: 2017-09-20 10:52:23 +0200 From: Thomas Omma <>

I try

albbas commented 7 years ago

Comment 12589

Date: 2017-09-22 15:08:24 +0200 From: Thomas Omma <>

sme $ svn ci -m "moved around things, bug2424" src Sending src/morphology/affixes/adjectives.lexc Sending src/morphology/affixes/nouns.lexc Sending src/morphology/compounding.lexc Sending src/morphology/stems/adjectives.lexc Sending src/morphology/stems/adverbs.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data ...... Committed revision 157414.

albbas commented 7 years ago

Comment 12592

Date: 2017-09-25 14:43:52 +0200 From: Thomas Omma <>

i had to revert this thingy, yaml-tests failed, dont know why

albbas commented 5 years ago

Comment 13718

Date: 2019-10-07 09:32:39 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Thomas Omma from comment #4)

i had to revert this thingy, yaml-tests failed, dont know why

Kan du spesifisera kva som feila, så kan vi diskutera kva som er problemet, og korleis det kan løysast?

albbas commented 5 years ago

Comment 13723

Date: 2019-10-07 11:16:17 +0200 From: Thomas Omma <>

i dont remember a thing of this

albbas commented 3 years ago

Comment 14087

Date: 2020-10-26 15:43:58 +0100 From: Lene Antonsen <>

Jeg følger opp denne. Mye er gjort, men enda gjenstår det:

i smj har vi src/fst/prefixes.lexc, src/fst/clitics.lexc i sma har vi src/fst/clitics.lexc pluss LEXICON Prefixes i src/fst/compounding.lexc i sme har vi src/fst/clitics.lexc pluss LEXICON Prefixes i src/fst/compounding.lexc i smn har vi src/fst/clitics.lexc

Jeg mener at alle disse bør flyttes over i stem, og at vi ser på tagginga. Når har vi f.eks. Davvi+Cmp#Sápmi+N+Prop+Sem/Plc+Sg+Nom

dvs at første del mangler PoS osv. Dette lager problemer i MT, vi bør ha lik tagging for all Cmp