Closed albbas closed 7 years ago
Date: 2015-10-09 19:24:57 +0200
From: Lene Antonsen <
G3 kommer ikke på riktig plass i strengen, jeg mistenker at årsaken er at Cmp-taggene er endra og at det ikke er oppdatert i tagg-flyttingsskriptet:
~$ usme fuođđu fuođđu fuođđu+G3+N+Sg+Gen fuođđu fuođđu+G3+N+Sg+Acc fuođđu fuođđu+G3+N+Sg+Nom
vuorru vuorru vuorru+N+G3+Sg+Gen vuorru vuorru+N+G3+Sg+Acc
fuođđu+G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+Sem/Ani:fuođ'đu GOAHTI-U ; vuorru+G3+Sem/Ani:vuor'ru GOAHTI-U ;
Date: 2015-10-09 19:28:10 +0200
From: Lene Antonsen <
Setter Francis og Ciprian som CC pga av MT prosjekt
Date: 2016-01-13 11:00:29 +0100
From: Sjur Nørstebø Moshagen <
Plasseringa av +G3 varierer veldig mykje. Dette er all variasjon eg har funne i nouns.lexc etter at eg fjerna Sem-taggane (som kjem sist):
CmpN/SgN+CmpN/PlG+Err/Orth+G3 CmpN/SgN+CmpN/PlG+G3 CmpN/SgN+CmpN/PlG+G3+CmpNP/First CmpN/SgN+CmpN/PlG+G3+Sem/Org CmpN/SgN+CmpN/SgG+CmpN/PlG+Err/Orth+G3 CmpN/SgN+CmpN/SgG+CmpN/PlG+OLang/UND+G3 CmpN/SgN+CmpN/SgG+G3 CmpN/SgN+CmpN/SgG+G3+CmpNP/First CmpN/SgN+CmpN/SgNomLeft+CmpN/SgGenLeft+CmpN/PlGenLeft+G3 CmpNP/Last+G3 Err/Lex+G3 Err/Orth+G3 G3 G3+CmpN/SgG+CmpN/PlG G3+CmpN/SgN G3+CmpN/SgN+CmpN/PlG+G3 G3+CmpN/SgN+CmpN/SgG G3+CmpN/SgN+CmpN/SgG+CmpN/PlG G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+CmpN/SgNomLeft+CmpN/SgGenLeft+CmpN/PlGenLeft G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+CmpNP/First G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+Err/Lex G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+Err/Orth G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+OLang/NOB G3+CmpN/SgN+CmpN/SgG+G3 G3+CmpN/SgN+Sem/Dummytag G3+CmpN/SgN+Sem/Dummytag+N G3+CmpNP/First G3+Err/Orth G3+Err/Orth+CmpNP/First G3+Err/Orth+G3 G3+N+Sem/Hum+Sg+Nom G3+OLang/ENG G3+OLang/NOB G3+OLang/NOB+G3 G3+OLang/UND G3+Sem/Semcon G3+Use/NG G3+v1 G3+v1+CmpN/SgN+CmpN/SgG+CmpN/PlG G3+v1+CmpNP/First G3+v1+OLang/NOB G3+v1+OLang/UND G3+v2 G3+v2+CmpN/SgN+CmpN/SgG+CmpN/PlG G3+v2+CmpNP/First G3+v2+OLang/UND G3+v3 G3+v3+OLang/UND G3+v4 G3+v4+OLang/UND G3+v5 G3+v6 OLang/NOB+G3 OLang/UND+G3 v1+G3 v1+G3+CmpN/SgN+CmpN/SgG+CmpN/PlG v1+G3+OLang/NOB v1+OLang/NOB+G3 v2+G3 v2+G3+CmpN/SgN+CmpN/SgG+CmpN/PlG v3+G3 v4+G3
I dei tilfella der +G3 kjem sist (dvs rett før Sem-taggen), så funkar G3-flyttinga, elles ikkje.
Det kan kjennest logisk å ha +G3 nære lemma, så om det er viktig kan eg byggja ut +G3-flyttingsskriptet. Men det vil gje raskare kompilering om vi ikkje treng å gjera det, og i staden flyttar alle +G3 til rett før +Sem/-taggen.
Synspunkt?
Date: 2016-10-03 09:42:39 +0200
From: Lene Antonsen <
Denne Bz har blitt liggende uløst, vi har ikke respondert på Sjurs spøsmål. Dette er et problem som vi må fikse fortest mulig. Jeg ville helst sett at +G3 kommer rett etter lemma.
Date: 2016-10-03 09:45:21 +0200
From: Lene Antonsen <
(In reply to Lene Antonsen from comment #3)
Denne Bz har blitt liggende uløst, vi har ikke respondert på Sjurs spøsmål. Dette er et problem som vi må fikse fortest mulig. Jeg ville helst sett at +G3 kommer rett etter lemma.
Presisering: Jeg ville helst sett at +G3 kan stå rett etter lemma i lexc-fila
Date: 2016-10-03 10:03:52 +0200
From: Trond Trosterud <
I stems/nouns.lex står G3, vi får N frå affixes.lexc, og dei blir bytta med filter. Det er fire unntak:
tf4-hsl-m0024:sme trond$ grep '+N+G3' src/morphology/stems/nouns.lexc hearrá+N+G3+Sem/Hum+Sg+Nom+PxSg3:hearrás K ; prográmma+N+G3+Sem/Tool-it+Sg+Ill+Err/Orth:pro^grámmai K ; !^LOAN
tf4-hsl-m0024:sme trond$ grep '+G3+N' src/morphology/stems/nouns.lexc leansmánni+CmpN/SgN+G3+N+Err/Orth+Sem/Dummytag+Cmp/Sh:leans#man%> R ; !NOT-TO-LEMMATEST leansmánni+CmpN/SgN+G3+N+Sem/Dummytag+Cmp/SgNom:leans#mánne%> R ; !NOT-TO-LEMMATEST
Det ser ut til at scriptet for å gjere +G3+N til +N+G3 fungerer berre når +G3 står sist i stems/nouns.lexc:
tf4-hsl-m0024:sme trond$ head src/filters/reorder-tags.sme.regex
%+N %+G3 <- %+G3 %+N , %+N %+G7 <- %+G7 %+N ,
slik at dette ikkje funkar: ie-diftoŋŋa+v1+G3+CmpNP/First+Sem/Sign:ie-diftoŋ'ŋa GOAHTI-A ;
fordi +G3 kjem før sem-taggane.
Vi har då to alternativ:
Date: 2016-10-03 10:05:26 +0200
From: Trond Trosterud <
Lene går altså inn for (1). Det er fordelar med det: Sem-tag-strengen er lang og variabel, og G3 forsvinn lett ut av syne. Så vidt eg hugsar har vi også script av den typen vi treng her.
Date: 2016-10-03 10:08:14 +0200
From: Lene Antonsen <
I stems/nouns.lex står G3, vi får N frå affixes.lexc, og dei blir bytta med filter. Det er fire unntak:
tf4-hsl-m0024:sme trond$ grep '+N+G3' src/morphology/stems/nouns.lexc hearrá+N+G3+Sem/Hum+Sg+Nom+PxSg3:hearrás K ; prográmma+N+G3+Sem/Tool-it+Sg+Ill+Err/Orth:pro^grámmai K ; !^LOAN
tf4-hsl-m0024:sme trond$ grep '+G3+N' src/morphology/stems/nouns.lexc leansmánni+CmpN/SgN+G3+N+Err/Orth+Sem/Dummytag+Cmp/Sh:leans#man%> R ; !NOT-TO-LEMMATEST leansmánni+CmpN/SgN+G3+N+Sem/Dummytag+Cmp/SgNom:leans#mánne%> R ; !NOT-TO-LEMMATEST Kommentar til denne: Dette er hardkodinger, og her er taggrekka "ferdig", heller ikke semtaggen trenges å flyttes.
Date: 2016-10-03 10:11:15 +0200
From: Lene Antonsen <
Det er bare disse ordene som får +G3+N i output:
grep 'G3' src/morphology/stems/nouns.lexc | cut -d '+' -f1 |usmedis | grep 'Sg+Nom' | grep -v Cmp | grep 'G3+N' |l
uo-diftoŋŋa uo-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom ea-diftoŋŋa ea-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom ie-diftoŋŋa ie-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom oa-diftoŋŋa oa-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom ua-diftoŋŋa ua-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom čáhppescammu čáhppescammu+G3+N+Sem/Plant+Sg+Nom ruvsocammu ruvsocammu+G3+N+Sem/Plant+Sg+Nom
Date: 2016-10-03 10:18:26 +0200
From: Trond Trosterud <
Ok, no har eg lese Sjur sin kommentar på nytt (!). Fart er sjølvsagt ein faktor, men spørsmålet er kor myke tid det tar. Viss tilleggstida er la oss seie under eit halvt minutt bør vi kunne flytte G3 til venstre og flytte taggar i regex, men viss vi snakkar om fleire minutt spørs det om vi må leve med ein G3 langt unna lemma.
Til Lene sine 7 ord: Det er nøyaktig desse som har G3 og deretter CmpNP...: grep 'G3+Cmp' src/morphology/stems/nouns.lexc
Så sånn sett har vi allereie implementert (2), vi må berre fikse dei 7 (+ dei to hardkoda i feil rekkjefølgje), så la oss gjere det til Korp-oppdateringa her og no. Men eg meiner framleis (1) er ei betre løysing, med mindre tidstapet blir for stort, så det hadde vore fint å fått eit estimat på det.
Date: 2016-10-03 10:29:55 +0200
From: Lene Antonsen <
svn ci -m "flyttet +G3 til rett før Sem-taggen, se bz. 2089" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 140844.
Rekkefølgen på tagger må dokumenteres (lett tilgjengelig), det er lett å gjøre det feil. Dette gjelder også Sem-tagger og +MWE.
Date: 2016-10-03 10:54:17 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Trond Trosterud from comment #9)
Så sånn sett har vi allereie implementert (2), vi må berre fikse dei 7 (+ dei to hardkoda i feil rekkjefølgje), så la oss gjere det til Korp-oppdateringa her og no. Men eg meiner framleis (1) er ei betre løysing, med mindre tidstapet blir for stort, så det hadde vore fint å fått eit estimat på det.
Vanskeleg å seia utan å testa. Uansett trur eg dette får ein låg prioritet framover.
Ei anna løysing er å ha eit skript som sjekkar plasseringa av taggar, og varslar/rettar dersom det er feil. Det kan t.d. køyrast automatisk ved kvar innsjekking.
Date: 2016-10-03 10:55:46 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Lene Antonsen from comment #10)
Rekkefølgen på tagger må dokumenteres (lett tilgjengelig), det er lett å gjøre det feil. Dette gjelder også Sem-tagger og +MWE.
Dette er viktig, og må gjerast. I og med at taggane er delvis språkspesifikke, bør det skrivast dokumentasjon for kvart språk. I tillegg kan ein ha ein generell, språkuavhengig dokumentasjon.
Date: 2016-12-16 00:27:20 +0100
From: Lene Antonsen <
uo-diftoŋŋa uo-diftoŋŋa+v1+N+G3+Sg+Nom ea-diftoŋŋa ea-diftoŋŋa+v1+N+G3+Sg+Nom ea-diftoŋŋa ea+A+ABBR+Cmp-#diftoŋŋa+v1+N+G3+Sg+Nom ie-diftoŋŋa ie-diftoŋŋa+v1+N+G3+Sg+Nom oa-diftoŋŋa oa-diftoŋŋa+v1+N+G3+Sg+Nom ua-diftoŋŋa ua-diftoŋŋa+v1+N+G3+Sg+Nom čáhppescammu čáhppescammu+N+G3+Sg+Nom ruvsocammu ruvsocammu+N+G3+Sg+Nom
Jeg foreslår at vi lukker denne buggen.
This issue was created automatically with bugzilla2github
Bugzilla Bug 2089
Date: 2015-10-09T19:24:57+02:00 From: Lene Antonsen <>
To: Sjur Nørstebø Moshagen <>
CC: borre.gaup, ciprian.gerstenberger, ftyers, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud
Last updated: 2016-12-16T00:27:20+01:00