giellalt / bugzilla-dummy

0 stars 0 forks source link

G3 kommer ikke på riktig plass i strengen (Bugzilla Bug 2089) #1493

Closed albbas closed 7 years ago

albbas commented 9 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2089

Date: 2015-10-09T19:24:57+02:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: borre.gaup, ciprian.gerstenberger, ftyers, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2016-12-16T00:27:20+01:00

albbas commented 9 years ago

Comment 10774

Date: 2015-10-09 19:24:57 +0200 From: Lene Antonsen <>

G3 kommer ikke på riktig plass i strengen, jeg mistenker at årsaken er at Cmp-taggene er endra og at det ikke er oppdatert i tagg-flyttingsskriptet:

~$ usme fuođđu fuođđu fuođđu+G3+N+Sg+Gen fuođđu fuođđu+G3+N+Sg+Acc fuođđu fuođđu+G3+N+Sg+Nom

vuorru vuorru vuorru+N+G3+Sg+Gen vuorru vuorru+N+G3+Sg+Acc

fuođđu+G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+Sem/Ani:fuođ'đu GOAHTI-U ; vuorru+G3+Sem/Ani:vuor'ru GOAHTI-U ;

albbas commented 9 years ago

Comment 10775

Date: 2015-10-09 19:28:10 +0200 From: Lene Antonsen <>

Setter Francis og Ciprian som CC pga av MT prosjekt

albbas commented 8 years ago

Comment 11061

Date: 2016-01-13 11:00:29 +0100 From: Sjur Nørstebø Moshagen <>

Plasseringa av +G3 varierer veldig mykje. Dette er all variasjon eg har funne i nouns.lexc etter at eg fjerna Sem-taggane (som kjem sist):

CmpN/SgN+CmpN/PlG+Err/Orth+G3 CmpN/SgN+CmpN/PlG+G3 CmpN/SgN+CmpN/PlG+G3+CmpNP/First CmpN/SgN+CmpN/PlG+G3+Sem/Org CmpN/SgN+CmpN/SgG+CmpN/PlG+Err/Orth+G3 CmpN/SgN+CmpN/SgG+CmpN/PlG+OLang/UND+G3 CmpN/SgN+CmpN/SgG+G3 CmpN/SgN+CmpN/SgG+G3+CmpNP/First CmpN/SgN+CmpN/SgNomLeft+CmpN/SgGenLeft+CmpN/PlGenLeft+G3 CmpNP/Last+G3 Err/Lex+G3 Err/Orth+G3 G3 G3+CmpN/SgG+CmpN/PlG G3+CmpN/SgN G3+CmpN/SgN+CmpN/PlG+G3 G3+CmpN/SgN+CmpN/SgG G3+CmpN/SgN+CmpN/SgG+CmpN/PlG G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+CmpN/SgNomLeft+CmpN/SgGenLeft+CmpN/PlGenLeft G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+CmpNP/First G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+Err/Lex G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+Err/Orth G3+CmpN/SgN+CmpN/SgG+CmpN/PlG+OLang/NOB G3+CmpN/SgN+CmpN/SgG+G3 G3+CmpN/SgN+Sem/Dummytag G3+CmpN/SgN+Sem/Dummytag+N G3+CmpNP/First G3+Err/Orth G3+Err/Orth+CmpNP/First G3+Err/Orth+G3 G3+N+Sem/Hum+Sg+Nom G3+OLang/ENG G3+OLang/NOB G3+OLang/NOB+G3 G3+OLang/UND G3+Sem/Semcon G3+Use/NG G3+v1 G3+v1+CmpN/SgN+CmpN/SgG+CmpN/PlG G3+v1+CmpNP/First G3+v1+OLang/NOB G3+v1+OLang/UND G3+v2 G3+v2+CmpN/SgN+CmpN/SgG+CmpN/PlG G3+v2+CmpNP/First G3+v2+OLang/UND G3+v3 G3+v3+OLang/UND G3+v4 G3+v4+OLang/UND G3+v5 G3+v6 OLang/NOB+G3 OLang/UND+G3 v1+G3 v1+G3+CmpN/SgN+CmpN/SgG+CmpN/PlG v1+G3+OLang/NOB v1+OLang/NOB+G3 v2+G3 v2+G3+CmpN/SgN+CmpN/SgG+CmpN/PlG v3+G3 v4+G3

I dei tilfella der +G3 kjem sist (dvs rett før Sem-taggen), så funkar G3-flyttinga, elles ikkje.

Det kan kjennest logisk å ha +G3 nære lemma, så om det er viktig kan eg byggja ut +G3-flyttingsskriptet. Men det vil gje raskare kompilering om vi ikkje treng å gjera det, og i staden flyttar alle +G3 til rett før +Sem/-taggen.

Synspunkt?

albbas commented 8 years ago

Comment 11467

Date: 2016-10-03 09:42:39 +0200 From: Lene Antonsen <>

Denne Bz har blitt liggende uløst, vi har ikke respondert på Sjurs spøsmål. Dette er et problem som vi må fikse fortest mulig. Jeg ville helst sett at +G3 kommer rett etter lemma.

albbas commented 8 years ago

Comment 11468

Date: 2016-10-03 09:45:21 +0200 From: Lene Antonsen <>

(In reply to Lene Antonsen from comment #3)

Denne Bz har blitt liggende uløst, vi har ikke respondert på Sjurs spøsmål. Dette er et problem som vi må fikse fortest mulig. Jeg ville helst sett at +G3 kommer rett etter lemma.

Presisering: Jeg ville helst sett at +G3 kan stå rett etter lemma i lexc-fila

albbas commented 8 years ago

Comment 11469

Date: 2016-10-03 10:03:52 +0200 From: Trond Trosterud <>

I stems/nouns.lex står G3, vi får N frå affixes.lexc, og dei blir bytta med filter. Det er fire unntak:

tf4-hsl-m0024:sme trond$ grep '+N+G3' src/morphology/stems/nouns.lexc hearrá+N+G3+Sem/Hum+Sg+Nom+PxSg3:hearrás K ; prográmma+N+G3+Sem/Tool-it+Sg+Ill+Err/Orth:pro^grámmai K ; !^LOAN

tf4-hsl-m0024:sme trond$ grep '+G3+N' src/morphology/stems/nouns.lexc leansmánni+CmpN/SgN+G3+N+Err/Orth+Sem/Dummytag+Cmp/Sh:leans#man%> R ; !NOT-TO-LEMMATEST leansmánni+CmpN/SgN+G3+N+Sem/Dummytag+Cmp/SgNom:leans#mánne%> R ; !NOT-TO-LEMMATEST

Det ser ut til at scriptet for å gjere +G3+N til +N+G3 fungerer berre når +G3 står sist i stems/nouns.lexc:

tf4-hsl-m0024:sme trond$ head src/filters/reorder-tags.sme.regex

This script reshuffles sub-POS tags to follow the main POS.

The script is language specific, and covers only the sub-POS

tags relevant for North Sámi.

G3 & G7:

%+N %+G3 <- %+G3 %+N , %+N %+G7 <- %+G7 %+N ,

slik at dette ikkje funkar: ie-diftoŋŋa+v1+G3+CmpNP/First+Sem/Sign:ie-diftoŋ'ŋa GOAHTI-A ;

fordi +G3 kjem før sem-taggane.

Vi har då to alternativ:

  1. lage robust regex
  2. Vere streng på alltid å ha +G3 til slutt i nouns.lexc.
albbas commented 8 years ago

Comment 11470

Date: 2016-10-03 10:05:26 +0200 From: Trond Trosterud <>

Lene går altså inn for (1). Det er fordelar med det: Sem-tag-strengen er lang og variabel, og G3 forsvinn lett ut av syne. Så vidt eg hugsar har vi også script av den typen vi treng her.

albbas commented 8 years ago

Comment 11471

Date: 2016-10-03 10:08:14 +0200 From: Lene Antonsen <>

I stems/nouns.lex står G3, vi får N frå affixes.lexc, og dei blir bytta med filter. Det er fire unntak:

tf4-hsl-m0024:sme trond$ grep '+N+G3' src/morphology/stems/nouns.lexc hearrá+N+G3+Sem/Hum+Sg+Nom+PxSg3:hearrás K ; prográmma+N+G3+Sem/Tool-it+Sg+Ill+Err/Orth:pro^grámmai K ; !^LOAN

tf4-hsl-m0024:sme trond$ grep '+G3+N' src/morphology/stems/nouns.lexc leansmánni+CmpN/SgN+G3+N+Err/Orth+Sem/Dummytag+Cmp/Sh:leans#man%> R ; !NOT-TO-LEMMATEST leansmánni+CmpN/SgN+G3+N+Sem/Dummytag+Cmp/SgNom:leans#mánne%> R ; !NOT-TO-LEMMATEST Kommentar til denne: Dette er hardkodinger, og her er taggrekka "ferdig", heller ikke semtaggen trenges å flyttes.

albbas commented 8 years ago

Comment 11473

Date: 2016-10-03 10:11:15 +0200 From: Lene Antonsen <>

Det er bare disse ordene som får +G3+N i output:

grep 'G3' src/morphology/stems/nouns.lexc | cut -d '+' -f1 |usmedis | grep 'Sg+Nom' | grep -v Cmp | grep 'G3+N' |l

uo-diftoŋŋa uo-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom ea-diftoŋŋa ea-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom ie-diftoŋŋa ie-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom oa-diftoŋŋa oa-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom ua-diftoŋŋa ua-diftoŋŋa+G3+N+Sem/Sign+Sg+Nom čáhppescammu čáhppescammu+G3+N+Sem/Plant+Sg+Nom ruvsocammu ruvsocammu+G3+N+Sem/Plant+Sg+Nom

albbas commented 8 years ago

Comment 11475

Date: 2016-10-03 10:18:26 +0200 From: Trond Trosterud <>

Ok, no har eg lese Sjur sin kommentar på nytt (!). Fart er sjølvsagt ein faktor, men spørsmålet er kor myke tid det tar. Viss tilleggstida er la oss seie under eit halvt minutt bør vi kunne flytte G3 til venstre og flytte taggar i regex, men viss vi snakkar om fleire minutt spørs det om vi må leve med ein G3 langt unna lemma.

Til Lene sine 7 ord: Det er nøyaktig desse som har G3 og deretter CmpNP...: grep 'G3+Cmp' src/morphology/stems/nouns.lexc

Så sånn sett har vi allereie implementert (2), vi må berre fikse dei 7 (+ dei to hardkoda i feil rekkjefølgje), så la oss gjere det til Korp-oppdateringa her og no. Men eg meiner framleis (1) er ei betre løysing, med mindre tidstapet blir for stort, så det hadde vore fint å fått eit estimat på det.

albbas commented 8 years ago

Comment 11476

Date: 2016-10-03 10:29:55 +0200 From: Lene Antonsen <>

svn ci -m "flyttet +G3 til rett før Sem-taggen, se bz. 2089" src/morphology/stems/nouns.lexc Sending src/morphology/stems/nouns.lexc Transmitting file data . Committed revision 140844.

Rekkefølgen på tagger må dokumenteres (lett tilgjengelig), det er lett å gjøre det feil. Dette gjelder også Sem-tagger og +MWE.

albbas commented 8 years ago

Comment 11477

Date: 2016-10-03 10:54:17 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Trond Trosterud from comment #9)

Så sånn sett har vi allereie implementert (2), vi må berre fikse dei 7 (+ dei to hardkoda i feil rekkjefølgje), så la oss gjere det til Korp-oppdateringa her og no. Men eg meiner framleis (1) er ei betre løysing, med mindre tidstapet blir for stort, så det hadde vore fint å fått eit estimat på det.

Vanskeleg å seia utan å testa. Uansett trur eg dette får ein låg prioritet framover.

Ei anna løysing er å ha eit skript som sjekkar plasseringa av taggar, og varslar/rettar dersom det er feil. Det kan t.d. køyrast automatisk ved kvar innsjekking.

albbas commented 8 years ago

Comment 11478

Date: 2016-10-03 10:55:46 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Lene Antonsen from comment #10)

Rekkefølgen på tagger må dokumenteres (lett tilgjengelig), det er lett å gjøre det feil. Dette gjelder også Sem-tagger og +MWE.

Dette er viktig, og må gjerast. I og med at taggane er delvis språkspesifikke, bør det skrivast dokumentasjon for kvart språk. I tillegg kan ein ha ein generell, språkuavhengig dokumentasjon.

albbas commented 7 years ago

Comment 11869

Date: 2016-12-16 00:27:20 +0100 From: Lene Antonsen <>

uo-diftoŋŋa uo-diftoŋŋa+v1+N+G3+Sg+Nom ea-diftoŋŋa ea-diftoŋŋa+v1+N+G3+Sg+Nom ea-diftoŋŋa ea+A+ABBR+Cmp-#diftoŋŋa+v1+N+G3+Sg+Nom ie-diftoŋŋa ie-diftoŋŋa+v1+N+G3+Sg+Nom oa-diftoŋŋa oa-diftoŋŋa+v1+N+G3+Sg+Nom ua-diftoŋŋa ua-diftoŋŋa+v1+N+G3+Sg+Nom čáhppescammu čáhppescammu+N+G3+Sg+Nom ruvsocammu ruvsocammu+N+G3+Sg+Nom

Jeg foreslår at vi lukker denne buggen.