Closed albbas closed 13 years ago
Date: 2011-03-12 15:47:29 +0100
From: Lene Antonsen <
sma-fst gir følgende analyser:
src$ dsma abessive+N+Sg+Nom abessive+N+Sg+Nom abessive abessive+N+Sg+Nom abessijve abessive+N+Sg+Nom abessïjve
src$ dsmaNorm abessive+N+Sg+Nom abessive+N+Sg+Nom abessijve abessive+N+Sg+Nom abessïjve
sma-lex: LEXICON IVE ! Until abessive / abessijve is decided... +Use/Sub:iv NIEJTE ; :ijv NIEJTE ; :ïjv NIEJTE ; +N+SgNomCmp:iv R ;
I følge sma-lex er normen: -ijve og -ïjve. Problemet er at når vi analyserer normformer, så får vi sub-form som lemma! Og vi kan ikke generere noen av norm-formene:
abessïjve abessïjve abessive+N+Sg+Nom
abessijve+N+Sg+Nom abessijve+N+Sg+Nom abessijve+N+Sg+Nom +?
Problemet ligger i noun-leksikonet: abessive:abess IVE ;
istedenfor burde det vært slik: abessijve:abess IVE ;
Det er 81 slike.
En annen ting at en del av -ijve/-ïjve/-ive substantiver viser til annet leksikon: attributijve:attributijv NIEJTE ; attributïjve:attributïjv NIEJTE ;
istendenfor burde det vært: attributijve:attribut IVE ;
Når det ikke er konsekvent lemmaform, så blir det problemer ved lemmatisering: "<Tïjjeperspektijve>" "tïjje#perspektive" N "tïjje#perspektijve" N
Jeg regner med at dette har blitt slik pga usikkerhet om normering, men at dette enkelt kan ryddes opp i?
En annen ting er om vi ikke bør ha likt lemma også i slike tilfeller:
"
dvs at i leksikonet burde det være: nïlle:nille Ad ;
Date: 2011-03-13 13:12:01 +0100
From: Sjur Nørstebø Moshagen <
Det bør alltid vera ei og berre ei lemmaform, og den bør vera innanfor norma. Det kan vera fleire grunnar til at sma ikkje fylgjer dette prinsippet konsekvent, men som du seier, så er det lett å rydda opp i. Endringar i lemma-formene endrar ikkje på resten av den morfologiske transduseren, men gjer andre prosessar (disambiguering, generering, MT, m.m.) meir føreseielege.
Date: 2011-03-13 13:33:22 +0100
From: Lene Antonsen <
Foreslår å endre navnet fra IVE til IJVE for å tydeliggjøre bruken. En annen ting, de lemmaene som har både -i- og -ï- som norm, hvilken av de to bør stå i leksikonet som upperform? Når det gjelder de omtalte -ijve eller -ïjve? Vi bør vel ha et fast prinsipp?
Date: 2011-03-13 13:45:14 +0100
From: Sjur Nørstebø Moshagen <
Eit bra forslag å endra leksikonnamnet frå IVE til IJVE.
Når det gjeld valet av i eller ï i lemma (og tilsvarande andre alternative lemmaformer innanfor norma), så har vi ikkje noko fast prinsipp. Eg kan koma på i alle fall fire moglege kriterium:
Eg har inga sterke meiningar om kriterium for valet av lemmaform (lemmaformvalkriterium).
Date: 2011-03-13 15:03:11 +0100
From: Trond Trosterud <
Eg har sterke meiningar om i eller ï som lemmaform: ï kan valfritt bli skrive som i (de facto, i det minste). Det omvendte gjeld ikkje. Dermed bør lemmaet ha ï for å fortelje at dette er ei form der vi kan veksle mellom i og ï. Har lemmaet i veit vi ikkje det.
IJVE som namn er fint.
Date: 2011-04-21 15:52:28 +0200
From: Lene Antonsen <
Jeg har laget IJVE leksikon med -ïjve og -ijve som norm og -ive som sub.
Date: 2011-06-09 14:49:42 +0200
From: Lene Antonsen <
I forbindelse med oppfølging av sma-normeringsvedtak bør prinsippet med normativ form som lemma også for subformer følges. Hvis det er to former som er normative, bør man likevel velge en av dem som lemma hvis det er snakk om ortografiske varianter.
istedenfor: regionaale:regiona AALE ; regijonaale+Use/Sub:regijona AALE ; bør det være
regionaale:regiona AALE ; regionaale+Use/Sub:regijona AALE ;
Hvis man ikke følger dette prinsippet blir det dårligere ordparallellisering og det medfører også at man må legge til alle subformer i settene i den syntaktiske analysatoren (sma-dis.rle).
Date: 2011-06-09 15:16:17 +0200
From: Sjur Nørstebø Moshagen <
(In reply to comment #6)
Hvis man ikke følger dette prinsippet blir det dårligere ordparallellisering og det medfører også at man må legge til alle subformer i settene i den syntaktiske analysatoren (sma-dis.rle).
(kort kommentar for å sjekka at bz funkar som han skal:)
det er viktig at vi held oss til eitt lemma pr leksem - det har mange praktiske konsekvensar dersom vi ikkje gjer det.
Date: 2011-06-22 14:09:38 +0200
From: Thomas Omma <
this is worked with
Date: 2011-06-22 15:41:46 +0200
From: Sjur Nørstebø Moshagen <
Thomas, you did not provide a test or something that documents that all lemma forms are norm forms. A bug should not be closed without such a test in normal cases. One possible test could be (perhaps slightly simplified):
grep --exclude=sma-lex.txt ';' *lex.txt | grep -v '^!' | cut -d':' -f1 | tr -s ' ' | cut -d ' ' -f1 | usmaNorm | grep '\?' | wc -l
If the result is 0, the test passes (ie all lemmas are recognised by the normative transducer), if not, there are still words to be checked (or the lemma extraction above is to simplistic - which it probably is:).
I also believe we have a separate baseform-test for the analyser — please check the makefile.
Reopened until verified.
Date: 2011-06-22 21:23:17 +0200
From: Thomas Omma <
ENVIRONMENT: LOOKUP_FLAGS default value is: cKv29 0
Date: 2011-06-23 10:38:43 +0200
From: Lene Antonsen <
Har du testa kommandoen Sjur? Den er ikke helt bra.... Man ender ut bare med filnavnene :-)
Vær ellers obs på at delimiter mellom lemma og resten kan være både mellomrom, + og :
Og så må vi fjerne #
Og så er det entryer som bare fungerer i sammensetninger.
Date: 2011-06-23 11:11:34 +0200
From: Sjur Nørstebø Moshagen <
(In reply to comment #11)
Har du testa kommandoen Sjur? Den er ikke helt bra.... Man ender ut bare med filnavnene :-)
Nei, jf:
(In reply to comment #9)
One possible test could be (perhaps slightly simplified): ... ... (or the lemma extraction above is to simplistic - which it probably is:).
Fint om du kan retta opp og forbetra lemmaekstraheringa - eg hadde ikkje tid til meir :/
Date: 2011-06-23 11:12:23 +0200
From: Sjur Nørstebø Moshagen <
(In reply to comment #12)
(In reply to comment #11)
Har du testa kommandoen Sjur? Den er ikke helt bra.... Man ender ut bare med filnavnene :-)
Nei, jf:
Eg burde sjølvsagt ha skrive at kommandoen var utesta...
Date: 2011-06-23 13:40:59 +0200
From: Trond Trosterud <
Det er ikkje ein god ide å ta alle andre lex-filer enn sma-lex.txt, det er masse morfologi i fleire av dei andre filene. Ta heller POS for POS.
Her er ein kommando (det er mange vegar til målet) for å lage lemmaliste substantiv:
grep ';' noun-sma-lex.txt | grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#^]'
Skilnad på denne kommandoen og sjur sin: Filnamnet blir ikkje med :-) eg endrar + og : til mellomrom, alle tre symbola er lemma-grense eg fjernar # og ^ frå lemmaet.
Det å fjerne # må vi gjere. Derimot er det ikkje bra at vi må fjerne ^. Dette symbolet har ikkje noko å gjere i lemmaforma, og eg har allereie fjerna det frå noun-sma-lex.txt:
... så det ser ut til at nokon har sett ^-ane inn att. Vi treng dei ikkje i lemmaet, dei gjer lemmasøk og lemmaanalyse vanskeleg, så eg ser gjerne at vi held dei ute.
Når det er sagt ser det ut til at Thomas har problem med lookup, det er sjölvsagt eit verre problem. Utan lookup, inga analyse i det heile.
Date: 2011-06-23 13:45:29 +0200
From: Trond Trosterud <
Mystisk: Når eg no går attende for å fjerne dei nyinsette ^-ane finn eg dei ikkje. ... og eg kunne sverge på at eg hadde sett dei også etter 'cut -d" " -f1'. Så på det punktet er altså alt i orden :-)
Date: 2011-06-23 22:19:33 +0200
From: Trond Trosterud <
Substantiv i sma:
Substantiv-lemma i sma (ikkje R) som ikkje blir godtatt av sma.fst (For desse må vi ha skrivefeil eller leksikonfeil.):
asendente,denare,elektrokompressore,elysijume,entusijasme,epikureejer,evangelijume,furaasje,gladijaatore,kassa-apparaate,marhkesaemie,marhkesaemie,mirakeldåaktere,oratorijume,pastore,presse-etihke,provisorijume,radijaatore,rovtore,serograafe,sjïlhte,sulfatsellulovse,sulfatsellulovse,sulfittsellulovse,sulfittsellulovse,senije,serograafe,ålkoerïjhke,vampyjre,vampyjre (30)
Substantiv-lemma i sma som blir godtatt av sma.fst, men som ikkje blir godtatt av sma-norm.fst: (her kan det vere subformer som lemma):
aahtjetjeguaktah,algebraaje,april,august,baarkohke,bröökesieve,buletije,desember,eejhteghtjåahka,eejhtehtjåahka,februar,gaavnedimmietjåanghka,galkasaske,håagkhstaavra,håannege,jaepietjåahka,jaepietjåanghka,januar,juli,juni,jïjtjesvihtijemaasjijna,kavijare,komitée,kremasjovne,kultuvreseentere,kåånte,laamhpa,maajehööhpehtimmie,maalhte,mai,mars,matrijaarke,nautuluse,noerthe,november,oktober,regionaldepartemeente,saabate,seammavierhtege,september,sjeema,skoltesaemie,staadione,teekstegïetedalleme,teevetje,tjåahkoe,tsegk-ietnie,vearbe,veerbesyjjehtimmie,våhkatjåanghka,åssjalomme (52)
kommandar: kommando: ikkje i sma.fst: grep ';' noun-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#]'|usma|grep '\?'|cut -f1|tr '\n' ','|see i sma.fst men ikkje i sma-norm.fst: grep ';' noun-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#]'|usmaNorm|grep '?'|cut -f1|usma|grep -v '?'|cut -f1|sort|uniq|tr '\n' ','|see
Date: 2011-06-23 22:25:56 +0200
From: Trond Trosterud <
Verb i sma:
Verblemma som ikkje blir godtatt av sma.fst: eksplisiteeredh, eksplisiteeredh, opaleseeredh,
Verblemma som blir godtatt av sma.fst men ikkje sma-norm.fst: aajkanidh, adtjodh, baahkemidh, baahtjehtidh, baddanidh, baehkiedidh, baehkierdidh, baejkiestidh, baeskiedidh, baetjkiedidh, beapmedidh, biededidh, biektjiedidh, biektjierdidh, biektjieridh, bihtjiedidh, bijjiemdidh, bloggedh, blææntedh, bæælhkedh, dabranedtedh, daebpiemdidh, delegrafeeredh, dijmiemdidh, dissosieeredh, eksproprieeredh, faaradidh, feilvurdeeredh, gaelniemdidh, gaertjiemdidh, gehtiemdidh, geljiemdidh, gemtiemdidh, giedtjiemdidh, giehpiemdidh, giektsiemdidh, gieriemdidh, gievtiemdidh, guhkiemdidh, jaedtiemdidh, jalkemdidh, jelliemdidh, jilliemdidh, jipsadidh, jissiemdidh, joevjemdidh, jorpemdidh, juekiesovvedh, jïegkemdidh, kaarhteddidh, kraanghkeldidh, kråvvadidh, kvihteeredh, kviteeredh, laskamdidh, lievliemdidh, lisensieeredh, lissiemdidh, lydisoleeredh, låebliemdidh, låedtjiemdidh, låesjiemdidh, lïenemdidh, masseproduseeredh, miehtjiemdidh, mulliemdidh, njilliemdidh, pa'edidh, prijoriteredh, sameksisteeredh, siegkiemdidh, sikkerhetsklareeredh, skaepedidh, skiltedh, skruvvedidh, skuvlestruktedh, solliciteeredh, tjolkemdidh, tjåektjiemdidh, vaeniemdidh, verkiemdidh, vierriemdidh, vijdiemdidh, vijriemdidh, ååntjelidh, åårganiseredh,
Kommandoar: grep ';' verb-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d "[#%]"|usma|grep '\?'|cut -f1|tr '\n' ','|see grep ';' verb-sma-lex.txt | grep -v ' R '|grep -v '^!' |tr '[+:]' ' '|cut -d" " -f1|tr -d '[#%]'|usmaNorm|grep '?'|cut -f1|usma|grep -v '?'|cut -f1|sort|uniq|tr '\n' ','|see
Date: 2011-06-23 22:44:12 +0200
From: Trond Trosterud <
Adjektiv i sma:
Adjektiv som ikkje blir godkjent av sma.fst: transendentaale,transendentaale,fåskoes,råavthsah,slaetsies,kraavhpijes,våaltoes,åavtoes,
Adjektiv som blir godkjent av sma.fst, men ikkje av sma-norm.fst:
baltiske, bueriengielhts, bueriesjigneds, bueriesjugneds, bueriesjugnehts, bulgarske, burmanske, ceylåanske, chileenske, costaricanske, dominikanske, ecuadorianske, ektie, emosjonelle, emosjovnelle, fijianske, filippïnske, flaamske, funksjonelle, funksjovnelle, fysikalske, gaasedenmasten, gabtehaartegs, germanske, guinean, infernalske, irrasjovnelle, kolombianske, konstitusjovnelle, konvensjovnelle, kubanske, leksikalske, libyske, martialske, martsialske, matriarkalske, nepalske, nigerianske, opposisjovnelle, orientalske, pakistanske, palestïnske, panamanske, paraguyanske, patriarkalske, presbyterianske, profesjovnelle, qutarske, rasjovnelle, redaksjovnelle, republikaanske, romanske, romerske, rumeenske, råatjkoes, salvadoranske, sangvïnske, sensasjonelle, sensasjovnelle, sicilianske, sosiokultuvrelle, spartanske, spedalske, tabellarïske, tradisjovnelle, ukonvensjonelle, ukonvensjovnelle, unormaale,
(same kommando som for verb)
Date: 2011-06-24 00:06:29 +0200
From: Trond Trosterud <
Now, the N, V, A words not recognised by sma.fst are corrected (the hyphen bug still creeps in, a full test will in any case have to be done. Still to do: the sma.fst ones not recognised by sma-norm.fst
I leave those normative issues to Thomas.
Date: 2011-06-24 10:33:08 +0200
From: Thomas Omma <
februar januar juli juni mars
names of month's, SUb-marked, what to do with them? we are not sure about the normative forms
Date: 2011-06-24 12:18:24 +0200
From: Thomas Omma <
can't get the kommandos to work, though
Date: 2011-06-24 15:30:05 +0200
From: Trond Trosterud <
Only sub forms of a lexeme is bad, it breaks the system. At least one form should be non-sub. Pick the best one.
Date: 2011-06-24 15:34:18 +0200
From: Trond Trosterud <
"can't get the kommandos to work, though" ... a bit too unspecific error message.
stå i gt/sma/src
kommandoe var (td.)
grep ';' verb-sma-lex.txt | grep -v ' R '| grep -v '^!' | tr '[+:]' ' '| cut -d" " -f1| tr -d "[#%]"| usma| grep '\?'| cut -f1| tr '\n' ','| see
Det kan hende det er usma (og i ein annan kommando usmaNorm) som ikkje fungerer. I tilfelle kan du bruke dine eigne aliasar i staden:
usma = lookup ../bin/sma.fst
usmaNorm = lookup ../bin/sma-norm.fst
Date: 2011-08-01 03:49:28 +0200
From: Thomas Omma <
"Only sub forms of a lexeme is bad, it breaks the system. At least one form should be non-sub. Pick the best one."
hmm...there does not seem to be any best one here...:O
Date: 2011-08-01 08:57:05 +0200
From: Trond Trosterud <
(In reply to comment #24)
hmm...there does not seem to be any best one here...:O
Then, just pick one by random. Why? Because if we do not choose one, we cannot use the word when generating text.
Date: 2011-08-01 10:12:35 +0200
From: Thomas Omma <
but then we get possibly non-normative forms as "normative"...:O
Date: 2011-08-01 11:23:28 +0200
From: Trond Trosterud <
but then we get possibly non-normative forms as "normative"...:O
How can a word have only non-normative forms? Should it be there at all, then?
Hmm, yes, it probably should.
Today we have: +Use/Sub ==> implies NG (not-generate) +Use/NG ==> not Sub, but not generated.
So, if the goal is to have our generator speak only correct language, this word will never be generated. The Sg Nom of "februar" is then -- nothing.
We thus need to revise the tags. The problem is the implication: +Use/Sub shall not be generated.
One possibility is to have a further tag +Use/SubGen (substandard but generated, since we have to). Another is to skil the implication, change all +Use/Sub to +Use/Sub+Use/NG and then remove +Use/NG for "februar".
Views?
Date: 2011-08-01 13:35:51 +0200
From: Thomas Omma <
in my opinion the base-form, the nominative form, of these word can be accepted as normative, but not the inflected forms
Date: 2011-08-01 20:37:58 +0200
From: Lene Antonsen <
Minner om denne: http://giellatekno.uit.no/doc/lang/sma/lemma.html
Date: 2011-08-01 20:53:00 +0200
From: Thomas Omma <
HA-HA! NOW I CLOSE!
gt $ svn ci -m "LeftSub-marked februar, januar, juli, juni, mars" sma/src/noun-sma-lex.txt Sending sma/src/noun-sma-lex.txt Transmitting file data . Committed revision 44309.
This issue was created automatically with bugzilla2github
Bugzilla Bug 968
Date: 2011-03-12T15:47:29+01:00 From: Lene Antonsen <>
To: Thomas Omma <>
CC: lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud
Last updated: 2011-08-01T20:53:00+02:00