giellalt / bugzilla-dummy

0 stars 0 forks source link

beai+ShCmp+Cmp er problematisk for NDS (Bugzilla Bug 1650) #1883

Closed albbas closed 11 years ago

albbas commented 11 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1650

Date: 2013-04-14T00:20:47+02:00 From: Ryan Johnson <> To: Thomas Omma <> CC: berit.nystad.eskonsipo, ciprian.gerstenberger, lene.antonsen, marja.eira, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2013-04-18T09:15:48+02:00

albbas commented 11 years ago

Comment 8143

Date: 2013-04-14 00:20:47 +0200 From: Ryan Johnson <>

Laura oppdaga ein feil med jonssotruohttabeaieahkedii, der serveren gjev feilmelding som svar, p.g.a. problem i python.

Dette er noko eg må fiksa, men det er ogso noko til FST arbeid eller leksikonet.

Analysatoren gjev:

jonssotruohttabeaieahkedii
jonssotruohttabeaieahkedii      jonssot subst.  + #ruohtta subst.  + #beai   + #eahket subst. ent. ill.
jonssotruohttabeaieahkedii      jonssot subst.  + #ruohtta subst.  + #beai   + #eahket subst. ent. ill.

Og python finn ingen POS til 'beai', og då gjev feil.

Etter eg fikser dette, me kan ogso endra i FST for å få POS, ved å leggaj til i tag-no.regex: % subst%. <- %+ShCmp,... Men, eg veit ikkje nok om ord som nyttar ShCmp-taggen, då er eg usikker om eg burde gjera dette utan å ganska litt meir. Eg testa på maskina mi, og det gjekk bra, og eg fekk med i grensesnittet analysene til ordet:

jonssotruohttabeaieahkedii lea vejolaččat dán sáni hápmi:

beai subst.

eahket subst. ent. ill.

jonssot subst.

ruohtta subst.

Men då er det problem med ordet beai, som får ingen betydning. Her kan me heller endra lemma til beaivi, eller laga ein entry i leksikonet til beai+N, for å forklåra at det er ein forkorting av beaivi. Kva tenkjer de?

Eg fikser i all fall den biten som gjer tenesten til å kræsja.

albbas commented 11 years ago

Comment 8144

Date: 2013-04-14 00:45:08 +0200 From: Lene Antonsen <>

Jeg setter Thomas og Sjur som CC på denne, siden diskusjonen nå blir om hvordan vi skal gjøre med forkortede ord i fst.

I dag har vi: kulturskuvla kultuvra+N+SgNomCmp+Cmp#skuvla+Org+Plc+N+Sg+Nom jonssotruohttabeaieahkedii jonssot+Time+N+SgNomCmp+Cmp#ruohtta+Time+N+SgNomCmp+Cmp#beai+ShCmp+Cmp#eahket+Time+N+Sg+Ill

Dvs at kultur som er en forkorta form får 'kultuvra' som lemma, men beai får ikke 'beaivi' som lemma. Er det noen grunn til at vi behandler disse to klassene forskjellige, eller kunne vi gjøre det samme med ShCmp?

al beai beal báldd gabb garr gask geai geaš gieh giet guodd guoih guoikk joh jot liig miel mies muorr niib njun njár námm oahpaheai oai oaiv ris sai sis sáh sát vuohpp vuol váh vár vát čip šlubb čáz

albbas commented 11 years ago

Comment 8151

Date: 2013-04-17 22:43:24 +0200 From: Trond Trosterud <>

Denne buggen har stått ei stund, men blir no meir aktuell (brukartal på NDS har tatt seg opp, vi har no snart 30000 tilslag på sme-nob). Dermed er det ikkje bra at denne er open.

Ordboka treng altså lemmaform for kortformer (jf. kommentarar).

Eg sett Thomas i staden for Ryan (dette er lemmatisering), så får vi diskutere prioriteringa.

albbas commented 11 years ago

Comment 8158

Date: 2013-04-18 09:15:48 +0200 From: Thomas Omma <>

gt $ svn ci -m "lemmatized the shortened middlenouns" sme/src/ Sending sme/src/noun-sme-lex.txt Transmitting file data . Committed revision 74908.