giellalt / bugzilla-dummy

0 stars 0 forks source link

Presentasjon av ord som har statiske paradigmer i filene (Bugzilla Bug 1598) #1912

Closed albbas closed 11 years ago

albbas commented 11 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1598

Date: 2013-02-04T08:02:31+01:00 From: Lene Antonsen <> To: Ryan Johnson <> CC: berit.nystad.eskonsipo, ciprian.gerstenberger, lene.antonsen, marja.eira, trond.trosterud

Last updated: 2013-05-18T18:14:24+02:00

albbas commented 11 years ago

Comment 7850

Date: 2013-02-04 08:02:31 +0100 From: Lene Antonsen <>

Created attachment 156 presentasjon av mun i VD

Dette fungerer ikke i dag: Presentasjon av ord som har statiske paradigmer i filene.

Dette gjelder spesielt pronomener, nektingsverb, copulas osv F.eks. 'mun', lemma og paradigme finnes i pronPers_smenob.xml

Slik er presentasjonen i VD:

Attached file: mun.tiff (image/tiff, 75140 bytes) Description: presentasjon av mun i VD

albbas commented 11 years ago

Comment 7890

Date: 2013-02-07 21:15:29 +0100 From: Lene Antonsen <>

Nå er ordformene fra de statiske filene kommet med, og det er bra. Det er to problemstillinger:

1) til hvert lemma i de statiske filene, er det knyttet et paradigme, bør presenteres, f.eks. for 'mun'

     <mini_paradigm>
        <analysis ms="Pron_Pers_Sg1_Nom">
           <wordform>mun</wordform>
           <wordform>mon</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Acc/Gen">
           <wordform>mu</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Ill">
           <wordform>munnje</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Loc">
           <wordform>mus</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Com">
           <wordform>muinna</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Ess">
           <wordform>munin</wordform>
        </analysis>
     </mini_paradigm>

2) nå får vi presentert både a) analyse + oversettelse fra fst og b) informasjon fra statisk fil

eks. 'mis'

mis (pron.) – vi (har) <=== informasjon fra statisk fil

mun (pron.) – jeg <===== analyse + oversettelse fra fst mus lea jeg har

informasjon fra statisk fil gir bedre informasjon enn a) - derfor må a) bort.

Trond foreslår å fjerne dem fra fst-en. Hva mener du, Ryan?

albbas commented 11 years ago

Comment 7893

Date: 2013-02-07 22:43:55 +0100 From: Ryan Johnson <>

(In reply to comment #1)

Nå er ordformene fra de statiske filene kommet med, og det er bra. Det er to problemstillinger:

1) til hvert lemma i de statiske filene, er det knyttet et paradigme, bør presenteres, f.eks. for 'mun'

     <mini_paradigm>
        <analysis ms="Pron_Pers_Sg1_Nom">
           <wordform>mun</wordform>
           <wordform>mon</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Acc/Gen">
           <wordform>mu</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Ill">
           <wordform>munnje</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Loc">
           <wordform>mus</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Com">
           <wordform>muinna</wordform>
        </analysis>
        <analysis ms="Pron_Pers_Sg1_Ess">
           <wordform>munin</wordform>
        </analysis>
     </mini_paradigm>

2) nå får vi presentert både a) analyse + oversettelse fra fst og b) informasjon fra statisk fil

eks. 'mis'

mis (pron.) – vi (har) <=== informasjon fra statisk fil

mun (pron.) – jeg <===== analyse + oversettelse fra fst mus lea jeg har

informasjon fra statisk fil gir bedre informasjon enn a) - derfor må a) bort.

Trond foreslår å fjerne dem fra fst-en. Hva mener du, Ryan?

Det er fint om dei står eller om dei er fjernt frå generatoren. No er dei ikkje generert i sme, men berre fordi eg laga dette med sma og gløymde å ta deim med til sme. Eg endrer det no.

Men då, eit spørsmål:

           <wordform>mun</wordform>
           <wordform>mon</wordform>

Det er fleire former her, og eg viser berre ein i grensesnittet no, fordi det var ord som hadde mange moglege former i generering, men eg trur at isme-dict.fst er til hjelpe her, og det er mindre former som er generert. Eg endrer i templatene for å få deim med, men då må me sjekka litt at alt ser bra ut med andre ordparadigmer. :)

albbas commented 11 years ago

Comment 7894

Date: 2013-02-08 00:04:40 +0100 From: Ryan Johnson <>

Hei,

Eg tok med kontekst i nokre av dei ordtypene. Må berre gå gjennom lista og dictionarywork.html for å få dei andre med, men no er det ganske enkelt å lage språk- og tag-spesifiske reglor. "upers", "mun", "dat" og "sii" er med.

eksempel: http://digitesting.oahpa.no/detail/sme/nob/deaivvadit.html

R

albbas commented 11 years ago

Comment 7896

Date: 2013-02-08 00:15:21 +0100 From: Lene Antonsen <>

Jeg ser at jeg må gjøre enda en fiks på dict-isme.fst:

[lene@gtoahpa ~]$ lookup /opt/smi/sme/bin/dict-isme-norm.fst 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%

LEXICON LOOK-UP

deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadit+V+IV+Ind+Prt+Pl3 deaivvade <==== skal ha +Use/NVD deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadedje

Noen former skal ha +Use/NVD fordi vi ikke ønsker dem presentert i miniparadigmene. Jeg skal fikse dette (dvs kompilere ny dict-isme-norm.fst.

albbas commented 11 years ago

Comment 7897

Date: 2013-02-08 01:06:38 +0100 From: Lene Antonsen <>

Jeg har oppdatert dict-isme-norm.fst i opt både på gtlab og gtoahpa.

[lene@gtlab ~]$ lookup /opt/smi/sme/bin/dict-isme-norm.fst 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%

LEXICON LOOK-UP

deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadit+V+IV+Ind+Prt+Pl3 deaivvadedje

Slik vil vi ha det :-)

albbas commented 11 years ago

Comment 7907

Date: 2013-02-10 00:59:41 +0100 From: Lene Antonsen <>

Ord som har bøyningsformer i de statiske filene, bør enten

F.eks. 'munnje' finnes i pronPers_smenob.xml munnje (pron.) – til meg

Dessuten får den følgende analyse fra FST (og den vil vi helst ikke presentere): mun (pron.) – jeg

For ord med følgende tagger vil vi helst ikke presentere FST-analyse:

Pers Dem Rel Refl Recipr Neg

Dessuten "leat"

albbas commented 11 years ago

Comment 7911

Date: 2013-02-10 02:16:55 +0100 From: Ryan Johnson <>

(In reply to comment #6)

Ord som har bøyningsformer i de statiske filene, bør enten

  • ikke sendes til analysatoren, eller
  • analysen filtreres bort før den sendes tilordbka.

F.eks. 'munnje' finnes i pronPers_smenob.xml munnje (pron.) – til meg

Dessuten får den følgende analyse fra FST (og den vil vi helst ikke presentere): mun (pron.) – jeg

For ord med følgende tagger vil vi helst ikke presentere FST-analyse:

Pers Dem Rel Refl Recipr Neg

Dessuten "leat"

Aha, eg skjønner no. Det kan eg ordne!

albbas commented 11 years ago

Comment 7913

Date: 2013-02-10 07:26:39 +0100 From: Ciprian Gerstenberger <>

The list of files containing mini-paradigm for smenob:

src>grep '<mini_paradigm' * | cut -d ':' -f1 | uniq adjstatpar_smenob.xml div_statisk_smenob.xml pronDem_smenob.xml pronPers_smenob.xml pronRecNew_smenob.xml pronRefl_smenob.xml pronRel_smenob.xml verbCop_smenob.xml verbNeg_smenob.xml verbSupNeg_smenob.xml

and for smanob: src>grep '<mini_paradigm' * | cut -d ':' -f1 | uniq misc_stat_smanob.xml pronDem_stat_smanob.xml pronPers_stat_smanob.xml pronRec_stat_smanob.xml pronRefl_stat_smanob.xml pronRel_stat_smanob.xml vCop_stat_smanob.xml vNeg_stat_smanob.xml

Any file containing at least a mini_paradigm should have at least a -element and vice versa. The mini paradigm hast the pointer to the inflected words and the lemma_ref is the pointer from an inflected form to the lemma.

albbas commented 11 years ago

Comment 8152

Date: 2013-04-17 22:46:49 +0200 From: Lene Antonsen <>

Hvordan er status for denne buggen nå?

Hvis jeg skriver "lei", får jeg presentert 'leat' og 'lei' med eksempler. Hvis jeg så velger 'lei' får jeg paradigme for preteritum, hvis jeg velder 'leat' får jeg ikke noe paradigme.

Tilsvarende med 'in' får jeg presentert 'ii' og 'in' - bare 'ii' gir paradigme.

For pronomener (sudno, son) får jeg ingen paradigmer.

Dette må ryddes opp i. Det er miniparadigmer i filene.

albbas commented 11 years ago

Comment 8153

Date: 2013-04-17 23:08:36 +0200 From: Ryan Johnson <>

Hei!

Det må ryddast opp. Eg auker prioriteten til buggen. No at eg gjorde dei nye oppdateringane på gtoahpa, er det lettare å endra ting og leggja deim ut i produksjon. So eg fiksa buggene og utvikla ganske raskt no.

R

albbas commented 11 years ago

Comment 8155

Date: 2013-04-18 03:54:10 +0200 From: Ryan Johnson <>

Viss eg ikkje skjønner korleis funkar, beklagar!

Det ser ut som lemmaID-attribut i alle elementane med bøygde former ikkje er rett, eller det ikkje er samsvar mellom dict-analysator og leksikon.

F.eks. frå leat paradigme:

leažžaba leaččan V_Pot_Du3 $ sme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% leažžaba leažžaba leat+V+IV+Pot+Prs+Du3 leat lea $ sme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% leat leat leat+V+IV+Ind+Prs+Pl1 leat leat+V+IV+Ind+Prs+Pl3 leat leat+V+IV+Ind+Prs+Sg2 leat leat+V+IV+Ind+Prs+ConNeg leat leat+V+IV+Inf lemmaID-attribut her burde vera leat_v, ikkje sant? Elles korleis kan ein få lemma til formene leažžaba og leat frå XML, utan ein FST? Nokre av desse ser ut til å vera "rett" (rett = funkar frå mitt synspunkt) munnje mun Pron_Pers_Sg1_Ill munnje munnje mun+Pron+Pers+Sg1+Ill Eg held fram med tanken at lemma burde stå i -- det funkar med pronomener, so kan eg testa med desse.
albbas commented 11 years ago

Comment 8156

Date: 2013-04-18 04:42:54 +0200 From: Ryan Johnson <>

Hei!

Fiksen er på vei, men det tek litt meir tid til.

Spursmål: burde me visa fram alle paradigmer om dei eksisterer i entryene, eller berre paradigmer til entryene som ikkje er merka med ?

albbas commented 11 years ago

Comment 8157

Date: 2013-04-18 08:06:22 +0200 From: Lene Antonsen <>

(In reply to comment #11)

Viss eg ikkje skjønner korleis funkar, beklagar!

lemma_ref og miniparadigme fra xml-file brukes istedenfor FST, dvs at ordene ikke skal sendes til FST.

Grunnen til at leažžaba gir lemma_ref 'leaččan', mens FST vil gi 'leat', er at vi har delt opp paradigmene. Vi ønsker f.ek.s å presentere bare potensialis, eller bare preteritum osv. Og vi presenterer ikke alle sideformer. Slik at ordet 'leažžaba' skal føre til miniparadigmet for ordent 'leaččan'. Det finnes ikke noe infitiv med potensialis.

På samme måte har 'munnuide' lemma_ref 'moai' og ikke 'mun' som i FST. Vi ønsker å presentere bare Du1-paradigmet for PronPers, ikke Sg1 og Pl1, fordi det vil bli et veldig stort paradigme.

albbas commented 11 years ago

Comment 8167

Date: 2013-04-20 01:57:54 +0200 From: Ryan Johnson <>

Aha! Eg skjønner poenget no. Takk. :) Eg hev implementert dei nye tingane frå fiksen på sanit.oahpa.no, men det er ikkje enno heilt klar. Du kan i all fall testa for å sjå kor langt det hev komme.

Eg hev gjord det samme som i Dictionary.app no, med ei lenkje til ei anna side når det er lemma_ref, slik at ein kan få paradigme, og analyser i analyseboksen er filtert bort når det er ein entry med lemma_ref, og tilsvarande entry med lemma i resultat... Men, burde eg ogso filtera bort entry med lemma, om det er ein annan entry med lemma_ref? F.eks., berre visa munnuide, når ein skriv den inn, og ikkje mun, moai, osv.?

R

albbas commented 11 years ago

Comment 8283

Date: 2013-05-18 18:14:24 +0200 From: Ryan Johnson <>

Hei,

Dette var implementert nokre vekor sidan. Eg hev testa med nokre ord som eg finn, og det ser bra ut. Problemet er berre at det ikkje er i lesaren enno, og me får den "gamle" lista over alle ordform: f.eks., munnje -> munnje, mun, osv. Eg kjem til å endra idag, fordi det er andre ting som ikkje står i lesaren, men burde (f.eks., funksjonen som for "reg" attributt i betydninga.) Eg lukker buggen likevel, fordi det som står her er elles gjort.

R