giellalt / bugzilla-dummy

0 stars 0 forks source link

Allegro-tag i nyinfra (Bugzilla Bug 1344) #1341

Closed albbas closed 9 years ago

albbas commented 12 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1344

Date: 2012-05-06T16:42:35+02:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: berit.nystad.eskonsipo, ciprian.gerstenberger, heli1401, linda.wiechetek, sjur.n.moshagen, thomas.omma

Last updated: 2015-02-11T07:12:39+01:00

albbas commented 12 years ago

Comment 6196

Date: 2012-05-06 16:42:35 +0200 From: Lene Antonsen <>

Allegro-taggen kom ikke fram i analysen (sme.fst) og jeg har derfor flyttet den fra common/src/make-variant-homonym-tags-optional.regex og common/src/remove-variant-homonym-tags.regex til common/src/tag-not-save.regex som en foreløpig løsning.

Allegro-taggen skal være obligatorisk bare for dict-isme-norm.fst, fordi vi trenger den for å unngå at Allegro-former presenteres i miniparadigmet. Det kan også være nyttig for presentasjon av standardparadigme på internett. Allegro er nå merka med Use/NG, men vi kunne like gjerne ha gjort taggen obligatorisk for isme-GG.restr.fst og isme-KJ.restr.fst.

Men den skal ikke være obligatorisk for isme-norm.fst eller isme.fst

og vi ønsker å se taggen i analysen, for bedre disambiguering ved noen plagsomme homonymier.

Dette må fikses før neste kompilering av VD-dict.

albbas commented 12 years ago

Comment 6197

Date: 2012-05-06 17:20:01 +0200 From: Sjur Nørstebø Moshagen <>

Eg føreslår at prioritet er P4 ("før neste VD"), og viktigheita er "normal".

albbas commented 12 years ago

Comment 6199

Date: 2012-05-07 08:38:43 +0200 From: Lene Antonsen <>

Jeg har lagt Use/NVD til i disse filene common/src/make-variant-homonym-tags-optional.regex og common/src/remove-variant-homonym-tags.regex

Denne taggen er bare i bruk ved generering i VD-dict, og den behøver vi ikke i analysen. Ved hjelp av denne taggen kan man filtrere bort disse formene fra miniparadigmet i VD, for at det ikke skal bli for mange former.

albbas commented 12 years ago

Comment 6720

Date: 2012-09-07 20:31:59 +0200 From: Trond Trosterud <>

No har vi ei ny VD-kompilering mellom oss og siste rapport på denne bugen. Kva er stoda?

albbas commented 12 years ago

Comment 6723

Date: 2012-09-07 20:42:46 +0200 From: Lene Antonsen <>

Jeg hadde glemt denne bugen. Det negative ved å nedprioritere en bug fordi det er lenge til neste genering, er at plutselig er dagen der, og man husker ikke buggen.

Situasjonen er dessverre slik:

sme$ lookup bin/dict-isme-norm.fst 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%

LEXICON LOOK-UP

girji+N+Sg+Gen girji+N+Sg+Gen girjji girji+N+Sg+Gen girjje <==== denne skulle ikke være her

girji+N+Sg+Gen+Allegro girji+N+Sg+Gen+Allegro girjje

albbas commented 12 years ago

Comment 6728

Date: 2012-09-08 10:29:32 +0200 From: Lene Antonsen <>

For å lage en oversikt over hva som skal gjøres:

Jeg legger nå +Allegro inn i disse filene slik at generering til ordboka blir rett: common/src/make-variant-homonym-tags-optional.regex common/src/remove-variant-homonym-tags.regex

Men da forsvinner +Allegro-taggen fra output av analyse med sme.fst. Der kan den være nyttig for å løse homonymier, fordi +Allegro er frekvent i tekster bare for noen tidsuttrykk og i noen PP-uttrykk. Utover det kan den fjernes i disambigueringa.

I dict-isme-norm.fst ønsker vi at disse taggene skal være obligatoriske: +1, +2 osv +v1, +v2 osv +Allegro +Use/NVD

Av disse taggene er det bare +Allegro som jeg mener bør være med i analysen fra sme.fst

Jeg har forsøkt å legge +Allegro inn i bare make-variant-homonym-tags-optional.regex, men det fungerer ikke. Jeg har i tillegg forsøkt å legge den inn med (<-) i remove-variant-homonym-tags.regex, men det gir heller ikke ønska resultat. Så nå er den lagt inn i begge filene, men som sagt, så er det bare en kriseløsning for VD.

albbas commented 12 years ago

Comment 6729

Date: 2012-09-08 10:33:33 +0200 From: Lene Antonsen <>

Når jeg kompilerer, får jeg slike feilmeldinger for disse regex-filene (ikke bare den som er nevnt her). Jeg vet ikke om det kan ha betydning for denne buggen.

Warning: File 'common/bin/remove-variant-homonym-tags.fst' was called by a regular expression. It contains 2 binary networks. Only the first network was used !!!

albbas commented 12 years ago

Comment 6730

Date: 2012-09-08 10:37:05 +0200 From: Lene Antonsen <>

(In reply to comment #6)

Når jeg kompilerer, får jeg slike feilmeldinger for disse regex-filene (ikke bare den som er nevnt her). Jeg vet ikke om det kan ha betydning for denne buggen.

Warning: File 'common/bin/remove-variant-homonym-tags.fst' was called by a regular expression. It contains 2 binary networks. Only the first network was used !!!

Jeg fant ut hva som var årsaken til denne melding, en typo fra min side (;). Jeg har retta den, men forsøker å løse buggen på nytt igjen, seinere i dag.

albbas commented 12 years ago

Comment 6731

Date: 2012-09-08 11:37:49 +0200 From: Lene Antonsen <>

Jeg melder pass og ber Trond og Sjur ta over. Nå fungerer det for dict og isme.fst, men i sme.fst:

girjje girji+Txt+N+Sg+Gen (her hadde det vært ønskelig med +Allegro)

Det er snakk om en kombinasjon av Makefile common/src/make-variant-homonym-tags-optional.regex common/src/remove-variant-homonym-tags.regex evt. en ny fil og <- eller (<-)

Det blir mange kombinasjoner, jeg har testa noen, men får ikke ønska resultat.

albbas commented 12 years ago

Comment 6756

Date: 2012-09-11 16:17:32 +0200 From: Trond Trosterud <>

Sjur?

albbas commented 12 years ago

Comment 6757

Date: 2012-09-11 17:56:42 +0200 From: Sjur Nørstebø Moshagen <>

Eg ser ingen andre alternativ enn å laga to nye filer:

make-optional-allegro-tag.regex remove-allegro-tag.regex

og fjerna +Allegro frå alle andre filter. Deretter kan ein ta i bruk dei to regexa over der ein treng dei.

Korleis høyrest det ut?

albbas commented 12 years ago

Comment 6919

Date: 2012-09-26 21:51:21 +0200 From: Lene Antonsen <>

Det høres bra ut. Men vi har en bugg til:

src$ usme divrasut divrasut divrras+A+Comp+Sg+Nom divrasut divrras+A+Comp+Attr

src$ usmeNorm divrasut divrasut divrras+A+Comp+Sg+Nom+Use/NVD <===
divrasut divrras+A+Comp+Attr+Use/NVD

Use/NVD skal ikke være synlig i usmeNorm, bare i dict-isme-norm.fst eller er det en tanke bak?

albbas commented 12 years ago

Comment 6972

Date: 2012-09-29 08:36:53 +0200 From: Trond Trosterud <>

Om +Allegro: Fint. Gjer du det, Sjur?

(In reply to comment #11)

Use/NVD skal ikke være synlig i usmeNorm, bare i dict-isme-norm.fst eller er det en tanke bak?

Ikkje for min del i alle fall. Men eg ser ikkje heilt korleis det skal bli gjort (anna enn med ein ny regex). Vi vil altså fjerne +Use/NVD frå dict-ifst-norm, men ikkje i fst-norm. Men vi har ingen tagfjernefilter for fst-norm som vi ikkje har for dict-ifst-norm.

dict-ifst-norm: dict-inverse-norm.fst dict-i$(GTLANG)-norm.fst: dict-inverse-norm.fst dict-inverse-norm.fst: $(GTLANG)/bin/dict-i$(GTLANG)-norm.fst $(GTLANG)/bin/dict-i$(GTLANG)-norm.fst: \ common/bin/tag-not-save.fst \ common/bin/usage-tags-remove.fst \ common/bin/downcase-derived-proper.fst \ common/bin/derivation-filter.fst \ $(GTLANG)/bin/focus-filter.fst \ $(GTLANG)/bin/$(GTLANG)-norm.save

fst-norm: $(GTLANG)/bin/$(GTLANG)-norm.fst $(GTLANG)-norm.fst: $(GTLANG)/bin/$(GTLANG)-norm.fst $(GTLANG)/bin/$(GTLANG)-norm.fst: \ common/bin/usage-tags-remove.fst \ common/bin/inituppercase.fst \ common/bin/downcase-derived-proper.fst \ $(GTLANG)/bin/$(GTLANG)-norm.save

I og med at det er Sjur som har sett mest på Makefila sender eg ballen over til han, så ser vi.

albbas commented 11 years ago

Comment 7560

Date: 2012-12-13 15:18:31 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #12)

Om +Allegro: Fint. Gjer du det, Sjur? [...] I og med at det er Sjur som har sett mest på Makefila sender eg ballen over til han, så ser vi.

Målet er å få ny infra for nordsamisk før vi får ny VD. Det er dessutan ein del arbeid med dette, som eg helst ikkje vil gjera to gonger (i gamal infra for SME, og ny for SMA). Altså: fyrst flyttar vi SME, deretter ser eg på dette.

Verkar det ok?

albbas commented 11 years ago

Comment 7620

Date: 2012-12-31 14:43:21 +0100 From: Lene Antonsen <>

Målet er å få ny infra for nordsamisk før vi får ny VD. Det er dessutan ein del arbeid med dette, som eg helst ikkje vil gjera to gonger (i gamal infra for SME, og ny for SMA). Altså: fyrst flyttar vi SME, deretter ser eg på dette.

Verkar det ok?

Problemet er mer akutt enn som så, fordi det gjelder også sma. Jeg får ikke kompilert riktig isma.fst for dict og oahpa i den nye strukturen, fordi jeg ikke får riktige tagger, sjøl om kompileringa av sma nå er delt opp i vanlig og oahpa. For smaOahpa og smaDict trenger vi +1 og +2, f.eks. govledh+1 og govledh+2 => oahpa.ifst og dict.ifst kompilert med riktige regex-filer.

albbas commented 11 years ago

Comment 7870

Date: 2013-02-05 23:17:07 +0100 From: Lene Antonsen <>

Jeg minner om denne buggen. Vi har nå ordbøker på nett både for sma og sme, og her må det trikses for å få riktig generering. Situasjonen er verst for sma. fordi jeg må fremdeles bruke fst fra juni 2012, jeg kan ikke bruke ny infra. Derfor bør denne buggen prioriteres.

albbas commented 10 years ago

Comment 9207

Date: 2014-03-24 23:05:24 +0100 From: Sjur Nørstebø Moshagen <>

Eg har no oppdatert bygginga av dict-fst-ar i ny infra. Kan de testa at det funkar som det skal? Eg har lagt inn testfiler for å testa dict-fst-ane, men data der er for nordsamisk, så relevante testdata må leggjast inn før testane er meiningsfulle. Testfilene ligg i test/src/morphology/ og heiter:

dicttests_dict-gt-desc.ana.yaml dicttests_dict-gt-norm.gen.yaml

for respektive analysator- og generatortesting. Jf bug # 1774.

Eg håper eg snart får tid til å sjå på dialekthandteringa - etter at det er på plass burde det vera ein smal sak å få resten av oahpa-fst-ane i gang.

albbas commented 10 years ago

Comment 9368

Date: 2014-04-29 10:22:56 +0200 From: Sjur Nørstebø Moshagen <>

I den nye infraen blir ikkje Allegro-taggen rørt i det heile - det finst ikkje noko filter for han. Det er kanskje ein miss, men det betyr at dei analysene vi får kjem rett frå LexC. Og det eg får er:

$ lookup -q -flags mbTT src/analyser-dict-gt-desc.xfst girjji girjji girji+N+Sg+Acc girjji girji+N+Sg+Gen girjji girji+N+Sg+Acc girjji girji+N+Sg+Gen

girjje girjje girji+N+Sg+Gen+Allegro girjje girji+N+Sg+Acc girjje girji+N+Sg+Gen girjje girji+N+Sg+Gen+Allegro

Dvs at allegroformen får analyse både med og utan +Allegro-taggen. Då er det ikkje mykje eg kan gjera i make-filene.

Denne buggen må attende til LexC-folka - eg prøvde å sjå på det som snarast, men forstod ikkje kva som blir gjort der.

Problemet er berre kven: for Ritva har LexC lågaste prioritet, Thomas er sjuk og Lene er i Canada.

albbas commented 10 years ago

Comment 9373

Date: 2014-04-29 11:17:42 +0200 From: Lene Antonsen <>

Analysen er slik bare for girjje: news$ husme vieso vieso viessu+N+Sg+Gen+Allegro 0,000000

beavdde beavdde beavdi+N+Sg+Gen+Allegro 0,000000

girjje girjje girji+N+Sg+Acc 0,000000 girjje girji+N+Sg+Gen 0,000000 girjje girji+N+Sg+Gen+Allegro 0,000000

sme$ $HLOOKUP /Users/lan000/gtsvn/langs/sme/src/generator-gt-desc.hfst viessu+N+Sg+Gen viessu+N+Sg+Gen viesu 0,000000 <=== her burde vi fått vieso også

Jeg kan se på problemet med girjje.

Ønska behandling av taggen i kompileringa er beskrevet her: http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html

(hilsen en i Canada som våkner lys våken hver natt kl 3)

albbas commented 10 years ago

Comment 9376

Date: 2014-04-29 11:36:01 +0200 From: Lene Antonsen <>

girjje girjje girji+N+Sg+Acc 0,000000 girjje girji+N+Sg+Gen 0,000000 girjje girji+N+Sg+Gen+Allegro 0,000000

Grunnen til dette er

girji+CmpN/SgN+CmpN/SgG+Sem/Ani:gir'je GOAHTI ; girji+Sem/Txt:gir'ji GOAHTI-I ;

dvs at formene girje og girji er lagt under samme lemma. Jeg ser her at de har fått forskjellig semantisk tagg, og det forstår jeg ikke hvorfor de skal ha. Men jeg kan endre lemma for girje til girje inntil vi har avklart dette.

Jeg har endra navnet på denne buggen til å omhandle Allegro-taggen i nyinfra.

albbas commented 9 years ago

Comment 9849

Date: 2014-11-29 18:46:25 +0100 From: Lene Antonsen <>

Jeg anser denne bugen som løst:

sme$ $LOOKUP src/generator-dict-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi

girji+N+Sg+Gen girji+N+Sg+Gen girjji

girji+N+Sg+Gen+Allegro girji+N+Sg+Gen+Allegro girjje

^C sme$ $LOOKUP src/generator-gt-norm.xfst girji+N+Sg+Gen girji+N+Sg+Gen girjji girji+N+Sg+Gen girjje

beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi beavdi+N+Sg+Gen beavdde

albbas commented 9 years ago

Comment 9851

Date: 2014-11-29 19:06:30 +0100 From: Lene Antonsen <>

Vel, Allegro-taggen er ikke helt på plass enda.

+Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem med dialect

sme$ $LOOKUP src/generator-oahpa-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi

beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdde

albbas commented 9 years ago

Comment 9940

Date: 2015-01-08 09:47:03 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #21)

Vel, Allegro-taggen er ikke helt på plass enda.

+Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem med dialect

Eg forstår ikkje heilt kva du meiner her. Kan du presisera?

albbas commented 9 years ago

Comment 9946

Date: 2015-01-08 15:31:47 +0100 From: Lene Antonsen <>

(> +Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem

med dialect

sme$ $LOOKUP src/generator-oahpa-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi

beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdde

I generator-oahpa-gt-norm.xfst er den obligatorisk, den skal ikke være det.

sme$ $LOOKUP src/generator-oahpa-gt-norm-dial_GG.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi

beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro +?

Her er Allegro filtrert bort, den burde heller være obligatorisk. Jeg ser at den ikke er nevnt i oversikten her, men det skal jeg legge til: http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html

albbas commented 9 years ago

Comment 10102

Date: 2015-02-10 07:10:41 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #23)

(> +Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem

med dialect

sme$ $LOOKUP src/generator-oahpa-gt-norm.xfst [...] I generator-oahpa-gt-norm.xfst er den obligatorisk, den skal ikke være det.

=> ikkje obligatorisk.

sme$ $LOOKUP src/generator-oahpa-gt-norm-dial_GG.xfst [...] Her er Allegro filtrert bort, den burde heller være obligatorisk.

=> obligatorisk

Jeg ser at den ikke er nevnt i oversikten her, men det skal jeg legge til: http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html

=> valfri på denne sida for alle oahpa-generatorane.

Alti i alt: uklårt. Skal Allegro-taggen vera obligatorisk, valfri eller ikkje til stades? Og på sida med oversikt over taggar og fst-ar som du lenkar til står det ikkje det same som eg trur du meiner her.

Skal eg halda meg til nettsida? Dvs valfri for alle oahpa-generatorane?

albbas commented 9 years ago

Comment 10108

Date: 2015-02-10 08:40:41 +0100 From: Lene Antonsen <>

=> valfri på denne sida for alle oahpa-generatorane.

Alti i alt: uklårt. Skal Allegro-taggen vera obligatorisk, valfri eller ikkje til stades? Og på sida med oversikt over taggar og fst-ar som du lenkar til står det ikkje det same som eg trur du meiner her.

Skal eg halda meg til nettsida? Dvs valfri for alle oahpa-generatorane?

generator-oahpa-gt-norm genererer former som skal godtas som svar fra brukeren => valgfri Allegro generator-oahpa-gt-restr_GG/KJ genererer former som skal vises i fasit => obligatorisk Allegro

Jeg skal oppdatere websida.

albbas commented 9 years ago

Comment 10109

Date: 2015-02-10 08:42:57 +0100 From: Lene Antonsen <>

Det er bra om Allegro-tagen ordnes snarest mulig, fordi Heli skal generere nytt leksikon for Oahpa denne uka.

albbas commented 9 years ago

Comment 10127

Date: 2015-02-10 23:29:07 +0100 From: Sjur Nørstebø Moshagen <>

Slik ser det ut no:

$ lookup -q src/generator-oahpa-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi beavdi+N+Sg+Gen beavdde

beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdde

^C $ lookup -q src/generator-oahpa-gt-norm-dial_GG.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavdi+N+Sg+Gen +?

beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro +?

Dvs oahpa-gt-norm oppfører seg som han skal, medan GG-varianten ikkje lenger aksepterer +Allegro-former. Eg forstår ikkje heilt kvifor - er Allegro av beavdi merka som 'ikkje GG'?

albbas commented 9 years ago

Comment 10130

Date: 2015-02-11 06:58:10 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #27)

beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro +?

Dvs oahpa-gt-norm oppfører seg som han skal, medan GG-varianten ikkje lenger aksepterer +Allegro-former. Eg forstår ikkje heilt kvifor - er Allegro av beavdi merka som 'ikkje GG'?

Eg har funne forklaringa:

beavdi+Sem/Furn:beav'di GADDISHORT ;

LEXICON GADDISHORT [...] +N:%>X8 GOADE-IU- ;

LEXICON GOADE-IU- +Sg+Gen+Allegro+Use/NG: K ;

Dvs at Allegro-forma for ord som går til GADDISHORT er òg tagga med +Use/NG, og http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html seier at dialekt-generatorar i Oahpa ikkje skal ha med Use/NG. Det er altså korrekt at beavdi+N+Sg+Gen+Allegro ikkje blir generert av GG-generatoren.

Dermed kan det sjå ut til at Allegro-taggen er på plass, men det hadde vore bra med eit positivt døme på Allegro i t.d. GG.

albbas commented 9 years ago

Comment 10131

Date: 2015-02-11 07:12:39 +0100 From: Sjur Nørstebø Moshagen <>

Etter å ha nøsta meg bakover frå +Allegro utan +Use/NG i lekskona, kom eg fram til dette testordet:

$ lookup -q src/generator-oahpa-gt-norm-dial_GG.xfst oahpahit+V+TV+Der/NomAct+N+Sg+Gen+Allegro oahpahit+V+TV+Der/NomAct+N+Sg+Gen+Allegro oahpaheame

oahpahit+V+TV+Der/NomAct+N+Sg+Gen oahpahit+V+TV+Der/NomAct+N+Sg+Gen oahpaheami

^C

Dvs at allegrotaggen fungerer som han skal i GG-generatoren, og han fungerer som tidlegare vist i den generelle oahpa-generatoren. Dermed er denne buggen endeleg løyst! :-)