Closed albbas closed 9 years ago
Date: 2012-05-06 16:42:35 +0200
From: Lene Antonsen <
Allegro-taggen kom ikke fram i analysen (sme.fst) og jeg har derfor flyttet den fra common/src/make-variant-homonym-tags-optional.regex og common/src/remove-variant-homonym-tags.regex til common/src/tag-not-save.regex som en foreløpig løsning.
Allegro-taggen skal være obligatorisk bare for dict-isme-norm.fst, fordi vi trenger den for å unngå at Allegro-former presenteres i miniparadigmet. Det kan også være nyttig for presentasjon av standardparadigme på internett. Allegro er nå merka med Use/NG, men vi kunne like gjerne ha gjort taggen obligatorisk for isme-GG.restr.fst og isme-KJ.restr.fst.
Men den skal ikke være obligatorisk for isme-norm.fst eller isme.fst
og vi ønsker å se taggen i analysen, for bedre disambiguering ved noen plagsomme homonymier.
Dette må fikses før neste kompilering av VD-dict.
Date: 2012-05-06 17:20:01 +0200
From: Sjur Nørstebø Moshagen <
Eg føreslår at prioritet er P4 ("før neste VD"), og viktigheita er "normal".
Date: 2012-05-07 08:38:43 +0200
From: Lene Antonsen <
Jeg har lagt Use/NVD til i disse filene common/src/make-variant-homonym-tags-optional.regex og common/src/remove-variant-homonym-tags.regex
Denne taggen er bare i bruk ved generering i VD-dict, og den behøver vi ikke i analysen. Ved hjelp av denne taggen kan man filtrere bort disse formene fra miniparadigmet i VD, for at det ikke skal bli for mange former.
Date: 2012-09-07 20:31:59 +0200
From: Trond Trosterud <
No har vi ei ny VD-kompilering mellom oss og siste rapport på denne bugen. Kva er stoda?
Date: 2012-09-07 20:42:46 +0200
From: Lene Antonsen <
Jeg hadde glemt denne bugen. Det negative ved å nedprioritere en bug fordi det er lenge til neste genering, er at plutselig er dagen der, og man husker ikke buggen.
Situasjonen er dessverre slik:
sme$ lookup bin/dict-isme-norm.fst 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
LEXICON LOOK-UP
girji+N+Sg+Gen girji+N+Sg+Gen girjji girji+N+Sg+Gen girjje <==== denne skulle ikke være her
girji+N+Sg+Gen+Allegro girji+N+Sg+Gen+Allegro girjje
Date: 2012-09-08 10:29:32 +0200
From: Lene Antonsen <
For å lage en oversikt over hva som skal gjøres:
Jeg legger nå +Allegro inn i disse filene slik at generering til ordboka blir rett: common/src/make-variant-homonym-tags-optional.regex common/src/remove-variant-homonym-tags.regex
Men da forsvinner +Allegro-taggen fra output av analyse med sme.fst. Der kan den være nyttig for å løse homonymier, fordi +Allegro er frekvent i tekster bare for noen tidsuttrykk og i noen PP-uttrykk. Utover det kan den fjernes i disambigueringa.
I dict-isme-norm.fst ønsker vi at disse taggene skal være obligatoriske: +1, +2 osv +v1, +v2 osv +Allegro +Use/NVD
Av disse taggene er det bare +Allegro som jeg mener bør være med i analysen fra sme.fst
Jeg har forsøkt å legge +Allegro inn i bare make-variant-homonym-tags-optional.regex, men det fungerer ikke. Jeg har i tillegg forsøkt å legge den inn med (<-) i remove-variant-homonym-tags.regex, men det gir heller ikke ønska resultat. Så nå er den lagt inn i begge filene, men som sagt, så er det bare en kriseløsning for VD.
Date: 2012-09-08 10:33:33 +0200
From: Lene Antonsen <
Når jeg kompilerer, får jeg slike feilmeldinger for disse regex-filene (ikke bare den som er nevnt her). Jeg vet ikke om det kan ha betydning for denne buggen.
Warning: File 'common/bin/remove-variant-homonym-tags.fst' was called by a regular expression. It contains 2 binary networks. Only the first network was used !!!
Date: 2012-09-08 10:37:05 +0200
From: Lene Antonsen <
(In reply to comment #6)
Når jeg kompilerer, får jeg slike feilmeldinger for disse regex-filene (ikke bare den som er nevnt her). Jeg vet ikke om det kan ha betydning for denne buggen.
Warning: File 'common/bin/remove-variant-homonym-tags.fst' was called by a regular expression. It contains 2 binary networks. Only the first network was used !!!
Jeg fant ut hva som var årsaken til denne melding, en typo fra min side (;). Jeg har retta den, men forsøker å løse buggen på nytt igjen, seinere i dag.
Date: 2012-09-08 11:37:49 +0200
From: Lene Antonsen <
Jeg melder pass og ber Trond og Sjur ta over. Nå fungerer det for dict og isme.fst, men i sme.fst:
girjje girji+Txt+N+Sg+Gen (her hadde det vært ønskelig med +Allegro)
Det er snakk om en kombinasjon av Makefile common/src/make-variant-homonym-tags-optional.regex common/src/remove-variant-homonym-tags.regex evt. en ny fil og <- eller (<-)
Det blir mange kombinasjoner, jeg har testa noen, men får ikke ønska resultat.
Date: 2012-09-11 16:17:32 +0200
From: Trond Trosterud <
Sjur?
Date: 2012-09-11 17:56:42 +0200
From: Sjur Nørstebø Moshagen <
Eg ser ingen andre alternativ enn å laga to nye filer:
make-optional-allegro-tag.regex remove-allegro-tag.regex
og fjerna +Allegro frå alle andre filter. Deretter kan ein ta i bruk dei to regexa over der ein treng dei.
Korleis høyrest det ut?
Date: 2012-09-26 21:51:21 +0200
From: Lene Antonsen <
Det høres bra ut. Men vi har en bugg til:
src$ usme divrasut divrasut divrras+A+Comp+Sg+Nom divrasut divrras+A+Comp+Attr
src$ usmeNorm
divrasut
divrasut divrras+A+Comp+Sg+Nom+Use/NVD <===
divrasut divrras+A+Comp+Attr+Use/NVD
Use/NVD skal ikke være synlig i usmeNorm, bare i dict-isme-norm.fst eller er det en tanke bak?
Date: 2012-09-29 08:36:53 +0200
From: Trond Trosterud <
Om +Allegro: Fint. Gjer du det, Sjur?
(In reply to comment #11)
Use/NVD skal ikke være synlig i usmeNorm, bare i dict-isme-norm.fst eller er det en tanke bak?
Ikkje for min del i alle fall. Men eg ser ikkje heilt korleis det skal bli gjort (anna enn med ein ny regex). Vi vil altså fjerne +Use/NVD frå dict-ifst-norm, men ikkje i fst-norm. Men vi har ingen tagfjernefilter for fst-norm som vi ikkje har for dict-ifst-norm.
dict-ifst-norm: dict-inverse-norm.fst dict-i$(GTLANG)-norm.fst: dict-inverse-norm.fst dict-inverse-norm.fst: $(GTLANG)/bin/dict-i$(GTLANG)-norm.fst $(GTLANG)/bin/dict-i$(GTLANG)-norm.fst: \ common/bin/tag-not-save.fst \ common/bin/usage-tags-remove.fst \ common/bin/downcase-derived-proper.fst \ common/bin/derivation-filter.fst \ $(GTLANG)/bin/focus-filter.fst \ $(GTLANG)/bin/$(GTLANG)-norm.save
fst-norm: $(GTLANG)/bin/$(GTLANG)-norm.fst $(GTLANG)-norm.fst: $(GTLANG)/bin/$(GTLANG)-norm.fst $(GTLANG)/bin/$(GTLANG)-norm.fst: \ common/bin/usage-tags-remove.fst \ common/bin/inituppercase.fst \ common/bin/downcase-derived-proper.fst \ $(GTLANG)/bin/$(GTLANG)-norm.save
I og med at det er Sjur som har sett mest på Makefila sender eg ballen over til han, så ser vi.
Date: 2012-12-13 15:18:31 +0100
From: Sjur Nørstebø Moshagen <
(In reply to comment #12)
Om +Allegro: Fint. Gjer du det, Sjur? [...] I og med at det er Sjur som har sett mest på Makefila sender eg ballen over til han, så ser vi.
Målet er å få ny infra for nordsamisk før vi får ny VD. Det er dessutan ein del arbeid med dette, som eg helst ikkje vil gjera to gonger (i gamal infra for SME, og ny for SMA). Altså: fyrst flyttar vi SME, deretter ser eg på dette.
Verkar det ok?
Date: 2012-12-31 14:43:21 +0100
From: Lene Antonsen <
Målet er å få ny infra for nordsamisk før vi får ny VD. Det er dessutan ein del arbeid med dette, som eg helst ikkje vil gjera to gonger (i gamal infra for SME, og ny for SMA). Altså: fyrst flyttar vi SME, deretter ser eg på dette.
Verkar det ok?
Problemet er mer akutt enn som så, fordi det gjelder også sma. Jeg får ikke kompilert riktig isma.fst for dict og oahpa i den nye strukturen, fordi jeg ikke får riktige tagger, sjøl om kompileringa av sma nå er delt opp i vanlig og oahpa. For smaOahpa og smaDict trenger vi +1 og +2, f.eks. govledh+1 og govledh+2 => oahpa.ifst og dict.ifst kompilert med riktige regex-filer.
Date: 2013-02-05 23:17:07 +0100
From: Lene Antonsen <
Jeg minner om denne buggen. Vi har nå ordbøker på nett både for sma og sme, og her må det trikses for å få riktig generering. Situasjonen er verst for sma. fordi jeg må fremdeles bruke fst fra juni 2012, jeg kan ikke bruke ny infra. Derfor bør denne buggen prioriteres.
Date: 2014-03-24 23:05:24 +0100
From: Sjur Nørstebø Moshagen <
Eg har no oppdatert bygginga av dict-fst-ar i ny infra. Kan de testa at det funkar som det skal? Eg har lagt inn testfiler for å testa dict-fst-ane, men data der er for nordsamisk, så relevante testdata må leggjast inn før testane er meiningsfulle. Testfilene ligg i test/src/morphology/ og heiter:
dicttests_dict-gt-desc.ana.yaml dicttests_dict-gt-norm.gen.yaml
for respektive analysator- og generatortesting. Jf bug # 1774.
Eg håper eg snart får tid til å sjå på dialekthandteringa - etter at det er på plass burde det vera ein smal sak å få resten av oahpa-fst-ane i gang.
Date: 2014-04-29 10:22:56 +0200
From: Sjur Nørstebø Moshagen <
I den nye infraen blir ikkje Allegro-taggen rørt i det heile - det finst ikkje noko filter for han. Det er kanskje ein miss, men det betyr at dei analysene vi får kjem rett frå LexC. Og det eg får er:
$ lookup -q -flags mbTT src/analyser-dict-gt-desc.xfst girjji girjji girji+N+Sg+Acc girjji girji+N+Sg+Gen girjji girji+N+Sg+Acc girjji girji+N+Sg+Gen
girjje girjje girji+N+Sg+Gen+Allegro girjje girji+N+Sg+Acc girjje girji+N+Sg+Gen girjje girji+N+Sg+Gen+Allegro
Dvs at allegroformen får analyse både med og utan +Allegro-taggen. Då er det ikkje mykje eg kan gjera i make-filene.
Denne buggen må attende til LexC-folka - eg prøvde å sjå på det som snarast, men forstod ikkje kva som blir gjort der.
Problemet er berre kven: for Ritva har LexC lågaste prioritet, Thomas er sjuk og Lene er i Canada.
Date: 2014-04-29 11:17:42 +0200
From: Lene Antonsen <
Analysen er slik bare for girjje: news$ husme vieso vieso viessu+N+Sg+Gen+Allegro 0,000000
beavdde beavdde beavdi+N+Sg+Gen+Allegro 0,000000
girjje girjje girji+N+Sg+Acc 0,000000 girjje girji+N+Sg+Gen 0,000000 girjje girji+N+Sg+Gen+Allegro 0,000000
sme$ $HLOOKUP /Users/lan000/gtsvn/langs/sme/src/generator-gt-desc.hfst viessu+N+Sg+Gen viessu+N+Sg+Gen viesu 0,000000 <=== her burde vi fått vieso også
Jeg kan se på problemet med girjje.
Ønska behandling av taggen i kompileringa er beskrevet her: http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html
(hilsen en i Canada som våkner lys våken hver natt kl 3)
Date: 2014-04-29 11:36:01 +0200
From: Lene Antonsen <
girjje girjje girji+N+Sg+Acc 0,000000 girjje girji+N+Sg+Gen 0,000000 girjje girji+N+Sg+Gen+Allegro 0,000000
Grunnen til dette er
girji+CmpN/SgN+CmpN/SgG+Sem/Ani:gir'je GOAHTI ; girji+Sem/Txt:gir'ji GOAHTI-I ;
dvs at formene girje og girji er lagt under samme lemma. Jeg ser her at de har fått forskjellig semantisk tagg, og det forstår jeg ikke hvorfor de skal ha. Men jeg kan endre lemma for girje til girje inntil vi har avklart dette.
Jeg har endra navnet på denne buggen til å omhandle Allegro-taggen i nyinfra.
Date: 2014-11-29 18:46:25 +0100
From: Lene Antonsen <
Jeg anser denne bugen som løst:
sme$ $LOOKUP src/generator-dict-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi
girji+N+Sg+Gen girji+N+Sg+Gen girjji
girji+N+Sg+Gen+Allegro girji+N+Sg+Gen+Allegro girjje
^C sme$ $LOOKUP src/generator-gt-norm.xfst girji+N+Sg+Gen girji+N+Sg+Gen girjji girji+N+Sg+Gen girjje
beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi beavdi+N+Sg+Gen beavdde
Date: 2014-11-29 19:06:30 +0100
From: Lene Antonsen <
Vel, Allegro-taggen er ikke helt på plass enda.
+Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem med dialect
sme$ $LOOKUP src/generator-oahpa-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi
beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdde
Date: 2015-01-08 09:47:03 +0100
From: Sjur Nørstebø Moshagen <
(In reply to comment #21)
Vel, Allegro-taggen er ikke helt på plass enda.
+Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem med dialect
Eg forstår ikkje heilt kva du meiner her. Kan du presisera?
Date: 2015-01-08 15:31:47 +0100
From: Lene Antonsen <
(> +Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem
med dialect
sme$ $LOOKUP src/generator-oahpa-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi
beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdde
I generator-oahpa-gt-norm.xfst er den obligatorisk, den skal ikke være det.
sme$ $LOOKUP src/generator-oahpa-gt-norm-dial_GG.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi
beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro +?
Her er Allegro filtrert bort, den burde heller være obligatorisk. Jeg ser at den ikke er nevnt i oversikten her, men det skal jeg legge til: http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html
Date: 2015-02-10 07:10:41 +0100
From: Sjur Nørstebø Moshagen <
(In reply to comment #23)
(> +Allegro-taggen skal ikke være obligatorisk i oahpa-generatorene, heller dem
med dialect
sme$ $LOOKUP src/generator-oahpa-gt-norm.xfst [...] I generator-oahpa-gt-norm.xfst er den obligatorisk, den skal ikke være det.
=> ikkje obligatorisk.
sme$ $LOOKUP src/generator-oahpa-gt-norm-dial_GG.xfst [...] Her er Allegro filtrert bort, den burde heller være obligatorisk.
=> obligatorisk
Jeg ser at den ikke er nevnt i oversikten her, men det skal jeg legge til: http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html
=> valfri på denne sida for alle oahpa-generatorane.
Alti i alt: uklårt. Skal Allegro-taggen vera obligatorisk, valfri eller ikkje til stades? Og på sida med oversikt over taggar og fst-ar som du lenkar til står det ikkje det same som eg trur du meiner her.
Skal eg halda meg til nettsida? Dvs valfri for alle oahpa-generatorane?
Date: 2015-02-10 08:40:41 +0100
From: Lene Antonsen <
=> valfri på denne sida for alle oahpa-generatorane.
Alti i alt: uklårt. Skal Allegro-taggen vera obligatorisk, valfri eller ikkje til stades? Og på sida med oversikt over taggar og fst-ar som du lenkar til står det ikkje det same som eg trur du meiner her.
Skal eg halda meg til nettsida? Dvs valfri for alle oahpa-generatorane?
generator-oahpa-gt-norm genererer former som skal godtas som svar fra brukeren => valgfri Allegro generator-oahpa-gt-restr_GG/KJ genererer former som skal vises i fasit => obligatorisk Allegro
Jeg skal oppdatere websida.
Date: 2015-02-10 08:42:57 +0100
From: Lene Antonsen <
Det er bra om Allegro-tagen ordnes snarest mulig, fordi Heli skal generere nytt leksikon for Oahpa denne uka.
Date: 2015-02-10 23:29:07 +0100
From: Sjur Nørstebø Moshagen <
Slik ser det ut no:
$ lookup -q src/generator-oahpa-gt-norm.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavddi beavdi+N+Sg+Gen beavdde
beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdde
^C $ lookup -q src/generator-oahpa-gt-norm-dial_GG.xfst beavdi+N+Sg+Gen beavdi+N+Sg+Gen beavdi+N+Sg+Gen +?
beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro +?
Dvs oahpa-gt-norm oppfører seg som han skal, medan GG-varianten ikkje lenger aksepterer +Allegro-former. Eg forstår ikkje heilt kvifor - er Allegro av beavdi merka som 'ikkje GG'?
Date: 2015-02-11 06:58:10 +0100
From: Sjur Nørstebø Moshagen <
(In reply to comment #27)
beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro beavdi+N+Sg+Gen+Allegro +?
Dvs oahpa-gt-norm oppfører seg som han skal, medan GG-varianten ikkje lenger aksepterer +Allegro-former. Eg forstår ikkje heilt kvifor - er Allegro av beavdi merka som 'ikkje GG'?
Eg har funne forklaringa:
beavdi+Sem/Furn:beav'di GADDISHORT ;
LEXICON GADDISHORT [...] +N:%>X8 GOADE-IU- ;
LEXICON GOADE-IU- +Sg+Gen+Allegro+Use/NG: K ;
Dvs at Allegro-forma for ord som går til GADDISHORT er òg tagga med +Use/NG, og http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html seier at dialekt-generatorar i Oahpa ikkje skal ha med Use/NG. Det er altså korrekt at beavdi+N+Sg+Gen+Allegro ikkje blir generert av GG-generatoren.
Dermed kan det sjå ut til at Allegro-taggen er på plass, men det hadde vore bra med eit positivt døme på Allegro i t.d. GG.
Date: 2015-02-11 07:12:39 +0100
From: Sjur Nørstebø Moshagen <
Etter å ha nøsta meg bakover frå +Allegro utan +Use/NG i lekskona, kom eg fram til dette testordet:
$ lookup -q src/generator-oahpa-gt-norm-dial_GG.xfst oahpahit+V+TV+Der/NomAct+N+Sg+Gen+Allegro oahpahit+V+TV+Der/NomAct+N+Sg+Gen+Allegro oahpaheame
oahpahit+V+TV+Der/NomAct+N+Sg+Gen oahpahit+V+TV+Der/NomAct+N+Sg+Gen oahpaheami
^C
Dvs at allegrotaggen fungerer som han skal i GG-generatoren, og han fungerer som tidlegare vist i den generelle oahpa-generatoren. Dermed er denne buggen endeleg løyst! :-)
This issue was created automatically with bugzilla2github
Bugzilla Bug 1344
Date: 2012-05-06T16:42:35+02:00 From: Lene Antonsen <>
To: Sjur Nørstebø Moshagen <>
CC: berit.nystad.eskonsipo, ciprian.gerstenberger, heli1401, linda.wiechetek, sjur.n.moshagen, thomas.omma
Last updated: 2015-02-11T07:12:39+01:00