Closed albbas closed 11 years ago
Date: 2013-02-04 08:02:31 +0100
From: Lene Antonsen <
Created attachment 156 presentasjon av mun i VD
Dette fungerer ikke i dag: Presentasjon av ord som har statiske paradigmer i filene.
Dette gjelder spesielt pronomener, nektingsverb, copulas osv F.eks. 'mun', lemma og paradigme finnes i pronPers_smenob.xml
Slik er presentasjonen i VD:
Attached file: mun.tiff (image/tiff, 75140 bytes) Description: presentasjon av mun i VD
Date: 2013-02-07 21:15:29 +0100
From: Lene Antonsen <
Nå er ordformene fra de statiske filene kommet med, og det er bra. Det er to problemstillinger:
1) til hvert lemma i de statiske filene, er det knyttet et paradigme, bør presenteres, f.eks. for 'mun'
<mini_paradigm>
<analysis ms="Pron_Pers_Sg1_Nom">
<wordform>mun</wordform>
<wordform>mon</wordform>
</analysis>
<analysis ms="Pron_Pers_Sg1_Acc/Gen">
<wordform>mu</wordform>
</analysis>
<analysis ms="Pron_Pers_Sg1_Ill">
<wordform>munnje</wordform>
</analysis>
<analysis ms="Pron_Pers_Sg1_Loc">
<wordform>mus</wordform>
</analysis>
<analysis ms="Pron_Pers_Sg1_Com">
<wordform>muinna</wordform>
</analysis>
<analysis ms="Pron_Pers_Sg1_Ess">
<wordform>munin</wordform>
</analysis>
</mini_paradigm>
2) nå får vi presentert både a) analyse + oversettelse fra fst og b) informasjon fra statisk fil
eks. 'mis'
mis (pron.) – vi (har) <=== informasjon fra statisk fil
mun (pron.) – jeg <===== analyse + oversettelse fra fst mus lea jeg har
informasjon fra statisk fil gir bedre informasjon enn a) - derfor må a) bort.
Trond foreslår å fjerne dem fra fst-en. Hva mener du, Ryan?
Date: 2013-02-07 22:43:55 +0100
From: Ryan Johnson <
(In reply to comment #1)
Nå er ordformene fra de statiske filene kommet med, og det er bra. Det er to problemstillinger:
1) til hvert lemma i de statiske filene, er det knyttet et paradigme, bør presenteres, f.eks. for 'mun'
<mini_paradigm> <analysis ms="Pron_Pers_Sg1_Nom"> <wordform>mun</wordform> <wordform>mon</wordform> </analysis> <analysis ms="Pron_Pers_Sg1_Acc/Gen"> <wordform>mu</wordform> </analysis> <analysis ms="Pron_Pers_Sg1_Ill"> <wordform>munnje</wordform> </analysis> <analysis ms="Pron_Pers_Sg1_Loc"> <wordform>mus</wordform> </analysis> <analysis ms="Pron_Pers_Sg1_Com"> <wordform>muinna</wordform> </analysis> <analysis ms="Pron_Pers_Sg1_Ess"> <wordform>munin</wordform> </analysis> </mini_paradigm>
2) nå får vi presentert både a) analyse + oversettelse fra fst og b) informasjon fra statisk fil
eks. 'mis'
mis (pron.) – vi (har) <=== informasjon fra statisk fil
mun (pron.) – jeg <===== analyse + oversettelse fra fst mus lea jeg har
informasjon fra statisk fil gir bedre informasjon enn a) - derfor må a) bort.
Trond foreslår å fjerne dem fra fst-en. Hva mener du, Ryan?
Det er fint om dei står eller om dei er fjernt frå generatoren. No er dei ikkje generert i sme, men berre fordi eg laga dette med sma og gløymde å ta deim med til sme. Eg endrer det no.
Men då, eit spørsmål:
<wordform>mun</wordform> <wordform>mon</wordform>
Det er fleire former her, og eg viser berre ein i grensesnittet no, fordi det var ord som hadde mange moglege former i generering, men eg trur at isme-dict.fst er til hjelpe her, og det er mindre former som er generert. Eg endrer i templatene for å få deim med, men då må me sjekka litt at alt ser bra ut med andre ordparadigmer. :)
Date: 2013-02-08 00:04:40 +0100
From: Ryan Johnson <
Hei,
Eg tok med kontekst i nokre av dei ordtypene. Må berre gå gjennom lista og dictionarywork.html for å få dei andre med, men no er det ganske enkelt å lage språk- og tag-spesifiske reglor. "upers", "mun", "dat" og "sii" er med.
eksempel: http://digitesting.oahpa.no/detail/sme/nob/deaivvadit.html
R
Date: 2013-02-08 00:15:21 +0100
From: Lene Antonsen <
Jeg ser at jeg må gjøre enda en fiks på dict-isme.fst:
[lene@gtoahpa ~]$ lookup /opt/smi/sme/bin/dict-isme-norm.fst 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
LEXICON LOOK-UP
deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadit+V+IV+Ind+Prt+Pl3 deaivvade <==== skal ha +Use/NVD deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadedje
Noen former skal ha +Use/NVD fordi vi ikke ønsker dem presentert i miniparadigmene. Jeg skal fikse dette (dvs kompilere ny dict-isme-norm.fst.
Date: 2013-02-08 01:06:38 +0100
From: Lene Antonsen <
Jeg har oppdatert dict-isme-norm.fst i opt både på gtlab og gtoahpa.
[lene@gtlab ~]$ lookup /opt/smi/sme/bin/dict-isme-norm.fst 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
LEXICON LOOK-UP
deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadedje
Slik vil vi ha det :-)
Date: 2013-02-10 00:59:41 +0100
From: Lene Antonsen <
Ord som har bøyningsformer i de statiske filene, bør enten
F.eks. 'munnje' finnes i pronPers_smenob.xml munnje (pron.) – til meg
Dessuten får den følgende analyse fra FST (og den vil vi helst ikke presentere): mun (pron.) – jeg
For ord med følgende tagger vil vi helst ikke presentere FST-analyse:
Pers Dem Rel Refl Recipr Neg
Dessuten "leat"
Date: 2013-02-10 02:16:55 +0100
From: Ryan Johnson <
(In reply to comment #6)
Ord som har bøyningsformer i de statiske filene, bør enten
- ikke sendes til analysatoren, eller
- analysen filtreres bort før den sendes tilordbka.
F.eks. 'munnje' finnes i pronPers_smenob.xml munnje (pron.) – til meg
Dessuten får den følgende analyse fra FST (og den vil vi helst ikke presentere): mun (pron.) – jeg
For ord med følgende tagger vil vi helst ikke presentere FST-analyse:
Pers Dem Rel Refl Recipr Neg
Dessuten "leat"
Aha, eg skjønner no. Det kan eg ordne!
Date: 2013-02-10 07:26:39 +0100
From: Ciprian Gerstenberger <
The list of files containing mini-paradigm for smenob:
src>grep '<mini_paradigm' * | cut -d ':' -f1 | uniq adjstatpar_smenob.xml div_statisk_smenob.xml pronDem_smenob.xml pronPers_smenob.xml pronRecNew_smenob.xml pronRefl_smenob.xml pronRel_smenob.xml verbCop_smenob.xml verbNeg_smenob.xml verbSupNeg_smenob.xml
and for smanob: src>grep '<mini_paradigm' * | cut -d ':' -f1 | uniq misc_stat_smanob.xml pronDem_stat_smanob.xml pronPers_stat_smanob.xml pronRec_stat_smanob.xml pronRefl_stat_smanob.xml pronRel_stat_smanob.xml vCop_stat_smanob.xml vNeg_stat_smanob.xml
Any file containing at least a mini_paradigm should have at least a
Date: 2013-04-17 22:46:49 +0200
From: Lene Antonsen <
Hvordan er status for denne buggen nå?
Hvis jeg skriver "lei", får jeg presentert 'leat' og 'lei' med eksempler. Hvis jeg så velger 'lei' får jeg paradigme for preteritum, hvis jeg velder 'leat' får jeg ikke noe paradigme.
Tilsvarende med 'in' får jeg presentert 'ii' og 'in' - bare 'ii' gir paradigme.
For pronomener (sudno, son) får jeg ingen paradigmer.
Dette må ryddes opp i. Det er miniparadigmer i filene.
Date: 2013-04-17 23:08:36 +0200
From: Ryan Johnson <
Hei!
Det må ryddast opp. Eg auker prioriteten til buggen. No at eg gjorde dei nye oppdateringane på gtoahpa, er det lettare å endra ting og leggja deim ut i produksjon. So eg fiksa buggene og utvikla ganske raskt no.
R
Date: 2013-04-18 03:54:10 +0200
From: Ryan Johnson <
Viss eg ikkje skjønner korleis
Det ser ut som lemmaID-attribut i alle
F.eks. frå leat paradigme:
Date: 2013-04-18 04:42:54 +0200
From: Ryan Johnson <
Hei!
Fiksen er på vei, men det tek litt meir tid til.
Spursmål: burde me visa fram alle paradigmer om dei eksisterer i entryene, eller berre paradigmer til entryene som ikkje er merka med
Date: 2013-04-18 08:06:22 +0200
From: Lene Antonsen <
(In reply to comment #11)
Viss eg ikkje skjønner korleis
funkar, beklagar!
lemma_ref og miniparadigme fra xml-file brukes istedenfor FST, dvs at ordene ikke skal sendes til FST.
Grunnen til at leažžaba gir lemma_ref 'leaččan', mens FST vil gi 'leat', er at vi har delt opp paradigmene. Vi ønsker f.ek.s å presentere bare potensialis, eller bare preteritum osv. Og vi presenterer ikke alle sideformer. Slik at ordet 'leažžaba' skal føre til miniparadigmet for ordent 'leaččan'. Det finnes ikke noe infitiv med potensialis.
På samme måte har 'munnuide' lemma_ref 'moai' og ikke 'mun' som i FST. Vi ønsker å presentere bare Du1-paradigmet for PronPers, ikke Sg1 og Pl1, fordi det vil bli et veldig stort paradigme.
Date: 2013-04-20 01:57:54 +0200
From: Ryan Johnson <
Aha! Eg skjønner poenget no. Takk. :) Eg hev implementert dei nye tingane frå fiksen på sanit.oahpa.no, men det er ikkje enno heilt klar. Du kan i all fall testa for å sjå kor langt det hev komme.
Eg hev gjord det samme som i Dictionary.app no, med ei lenkje til ei anna side når det er lemma_ref, slik at ein kan få paradigme, og analyser i analyseboksen er filtert bort når det er ein entry med lemma_ref, og tilsvarande entry med lemma i resultat... Men, burde eg ogso filtera bort entry med lemma, om det er ein annan entry med lemma_ref? F.eks., berre visa munnuide, når ein skriv den inn, og ikkje mun, moai, osv.?
R
Date: 2013-05-18 18:14:24 +0200
From: Ryan Johnson <
Hei,
Dette var implementert nokre vekor sidan. Eg hev testa med nokre ord som eg finn, og det ser bra ut. Problemet er berre at det ikkje er i lesaren enno, og me får den "gamle" lista over alle ordform: f.eks., munnje -> munnje, mun, osv. Eg kjem til å endra idag, fordi det er andre ting som ikkje står i lesaren, men burde (f.eks., funksjonen som for "reg" attributt i betydninga.) Eg lukker buggen likevel, fordi det som står her er elles gjort.
R
This issue was created automatically with bugzilla2github
Bugzilla Bug 1598
Date: 2013-02-04T08:02:31+01:00 From: Lene Antonsen <>
To: Ryan Johnson <>
CC: berit.nystad.eskonsipo, ciprian.gerstenberger, lene.antonsen, marja.eira, trond.trosterud
Last updated: 2013-05-18T18:14:24+02:00