Open albbas opened 13 years ago
Date: 2011-06-18 20:18:56 +0200
From: Ryan Johnson <
Created attachment 107 Non-generated forms
Hei,
Eg forandra installeringskript til smaoahpa slik at det gjev former som vart ikkje genererte. Her er error.log frå siste installering. Det er mykje linjer, men det er ikkje so mange ord med feil. Fordi systemet køyrer tre gong per FST, so viser det ofte eit ord tre forskjellege gong. Om noko er uklårt, berre sei ifrå. :)
Log-filen som er vedlagt er rå, men det kan vera ein god idé å nytta 'sort -u' for å bla gjennom den.
Attached file: victorio.error.log (application/octet-stream, 61134 bytes) Description: Non-generated forms
Date: 2011-06-18 22:55:43 +0200
From: Lene Antonsen <
Kommentarer til lista: Feil i sma-lex.txt gjorde at en del ord ikke blei generert. Jeg har retta denne feilen. Det gjelder disse ordene: aahka, aajja, aehtjaahka, aehtjaajja, gåmma, hosbåanta, jåvleaajja, maadteraahka, maadteraajja, onneåabpa, stoerreåabpa, tjidtjaahka, tjidtjaajja, åabpa
Flertallsord som ikke skal ha Sg-former, bare Pl-former: aajkoehkadtjh, bægkah, bïevsterh, daajh, daalhkesh, deerpegh, dïjnehkh, eejhtegh, föörhkelh, haelieh, jaavvoeh, jovnesåhkoeh, klaasetjelmieh, klååmsehth, laeviehkadtjh, loevtenjidtjieh, prïhtjegh, pæhperh, rohkejaavvoeh, sluekieh, syhtjegh, sysngelasjh, tjåenieh, veetejaavvoeh, voehpealmetjh, åabpetjh, åeremevaarjoeh, åerpienadtjh, vïelletjh, gåaromedeerpegh
Ord om værforhold som skal ha Sg+Nom: amhkedh, buaredh, golkedh, guakedh, nïmmerh, samhkedh, moenjehth
Ord som ikke var norm, nå retta i n_smanob.xml eller lagt til i fst: artigkele, horhtje, mojnestimmie, prïhtjhvoesse, raadio, sliehtieelmie, teatere, tjaktjelaante, traktovre, tåårske,
Denne skal strykes: gåmmebe, det er ikke et lemma
Date: 2011-06-18 22:59:15 +0200
From: Lene Antonsen <
Jeg har fjerna gåmmebe.
Date: 2011-06-19 14:55:52 +0200
From: Ryan Johnson <
Created attachment 108 Generation fail #2
Oopdatert versjon til siste error.log
Attached file: victorio.error.log (application/octet-stream, 154448 bytes) Description: Generation fail #2
Date: 2011-06-19 15:27:10 +0200
From: Trond Trosterud <
Desse er ulike. For Prop er dei fleste fleirordsamn (Saemien Sijte). For substantiv er alle saman fleirtalssubstantiv:
aajkoehkadtjh,amhkedh,buaredh,bægkah,bïevsterh,daajh,daalhkesh,deerpegh,dïjnehkh,eejhtegh,föörhkelh,golkedh,guakedh,gåaromedeerpegh,haelieh,jaavvoeh,jovnesåhkoeh,klaasetjelmieh,klååmsehth,laeviehkadtjh,loevtenjidtjieh,moenjehth,nïmmerh,prïhtjegh,pæhperh,rohkejaavvoeh,samhkedh,sluekieh,syhtjegh,sysngelasjh,tjåenieh,veetejaavvoeh,voehpealmetjh,vïelletjh,åabpetjh,åeremevaarjoeh,åerpienadtjh,
Dei generer ikkje eintalsformer, berre fleirtalsformer. Dei andre skal eg sjå på.
Date: 2011-06-19 15:27:56 +0200
From: Trond Trosterud <
~$echo "syhtjegh+N+Pl+Nom"|dsmaNorm syhtjegh+N+Pl+Nom syhtjegh
osb.
Date: 2011-06-19 15:41:25 +0200
From: Trond Trosterud <
Dei som står i errorreport utan tag, er alle adverb. To av dei står ikkje i analysatoren, dei bör inn (eller ut), i tillegg er det eit adverb utan adverb-analyse:
boelvjöölki boelvjöölki +? easkan easkan +? iehkeden iehkede+N+Sg+Gen
Date: 2011-06-20 16:14:55 +0200
From: Lene Antonsen <
Jeg har lagt til easkan og iehkeden i fst. boelvjöölki er korrigert til boelvhjöölki i xml-fila.
Date: 2011-06-28 22:49:51 +0200
From: Ryan Johnson <
Created attachment 109 generation error log #3
Attached file: generation.log (application/octet-stream, 108615 bytes) Description: generation error log #3
Date: 2011-06-28 22:50:39 +0200
From: Ryan Johnson <
Mens eg lada testdatabasen min på nytt eg laga ein ny log. Ser mykje betre ut. :)
Date: 2011-06-28 23:12:45 +0200
From: Lene Antonsen <
jeg skal se på lista. Det er gjort forandringer i sma-fst de siste par dagene om hva som er lemma.
Noen av entryene skal ikke generes - f.eks. 'Ubmeje tjeälddie'. Vi burde ha en attributtverdi for slike også. gen_only="none" - eller har du et anna forslag?
Date: 2011-06-28 23:16:17 +0200
From: Ryan Johnson <
"none" går bra, fordi det er ingen tag som matcher. Berre merk deim med "none", då. :)
Date: 2011-07-12 10:46:43 +0200
From: Ryan Johnson <
Created attachment 110 generation error log #4
Mykje betre!
Attached file: victorio.error.log (application/octet-stream, 9381 bytes) Description: generation error log #4
Date: 2011-07-13 08:49:52 +0200
From: Lene Antonsen <
Jeg har redigert gen_only for adjektivene. Jeg hadde endra en del i fst og glemt å redigere attibuttene.
De fleste stedsnavnene som ikke ble generert, har gen_only="none". Resten av stedsnavnene er ikke avklart hva som er normert skrivemåte, derfor generers dem ikke. Vi skal se på dem etter ferien. "ij" har type="Neg", "lea" og "edtjedh" har ikke fullt paradigme.
Date: 2011-10-02 04:00:15 +0200
From: Ryan Johnson <
Created attachment 117 error log #5
Attached file: error.log (application/octet-stream, 39015 bytes) Description: error log #5
Date: 2011-10-02 04:00:33 +0200
From: Ryan Johnson <
Her er ein ny generasjon logg.
Date: 2011-10-02 09:16:18 +0200
From: Trond Trosterud <
Eg såg på error.log:
cat Downloads/error.log |cut -d"+" -f1|uniq|grep 'd:'|cut -d" " -f4|usmaNorm|see
Her er kommentarane mine:
Det meste her er eigentleg for Marit, Sissel og Thomas (med unntak av eit par strukturelle ting).
aarehke: burde fungere: aarehke aarehke+A+Sg+Nom … er i fst
gaevnieh: er pl gaevnieh gaevnie+N+Pl+Nom gaevnieh gaevnieh+N+Pl+Nom
goerehtalleme
lagt til i fst.
gårroehbielie gårroeh+A+Attr#bielie+N+Sg+Nom lagt til i fst.
jïevege jïevege +? manglar i fst.
lijhkievaarjoeh lijhkie#vaarjoe+N+Pl+Nom er pl
motovre motovre+v1+N+Sg+Nom v1 …
paahke paahke +? lagt til i fst
raajnevaarjoeh raajnes+A+SgNomCmp#vaarjoe+N+Pl+Nom raajnevaarjoeh raajne#vaarjoe+N+Pl+Nom er pl
sliehtehke sliehtehke +? Har mörk ï i fst. Endre i oahpa? gt/sma/src/noun-sma-lex.txt:slïehtehke+CmpN/SgN+CmpN/SgG+CmpN/PlG:slïehtehk N_ODD ;
teatere teatere +? Norm med aa: gt/sma/src/typos.txt:teatere teaatere Endre i oahpa?
traasta traasta +? norm med a: gt/sma/src/noun-sma-lex.txt:traste+Use/Sub:traast NIEJTE ; gt/sma/src/noun-sma-lex.txt:traste:trast ANTE/ISTE_LOAN ; endre i oahpa?
traktore traktore+v1+N+Sg+Nom v1…
voerhkedahke voerhkedahke +? ikkje i fst
bæjngoldsvaarjoeh bæjngolds+N+CmpN/Pref#vaarjoe+N+Pl+Nom bæjngoldsvaarjoeh bæjngolds#vaarjoe+N+Pl+Nom
sååkehtje sååkehtje+A+Sg+Nom sååkehtje sååkehtje+A+Attr
sååkehtjekraesie sååkehtje+A+Attr#kraesie+N+Sg+Nom lagt til i fst
rektore rektore+v1+N+Sg+Nom … v1
Kanada Kanada +? … er merka Sub i fst. Vi bör endre i Oahpa eller i fst.
Åarjel-Afrika åarjel+N+CmpN/Pref-#Afrika+N+Prop+Plc+Attr Åarjel-Afrika åarjel+N+CmpN/Pref-#Afrika+N+Prop+Plc+Sg+Nom lagt til i fst
Fijhpeljaevrie Fijhpeljaevrie +? lagt til i fst
Gaajsetjh gaejsie+N+Der/Dim+N+Pl+Nom Gaajsetjh Gaajsetjh+N+Prop+Plc+Pl+Nom er fleirtal
Pliehkiejaevrieh pliehkie+N+SgNomCmp#jaevrie+N+Pl+Nom Pliehkiejaevrieh pliehkie+N+PlGenCmp#aevrie+N+Pl+Nom Pliehkiejaevrieh Pliehkiejaevrieh+N+Prop+Plc+Pl+Nom er fleirtal
bååktjehke bååktjehke+A+Sg+Nom er i fst
plïehtje plïehtje+N+Sg+Nom plïehtje plïehtje+A+Sg+Nom plïehtje plïehtje+A+Attr … er i fst
sjeavohth sjeavohth+A+Sg+Nom … er i fst
stoerre stoere+A+Sg+Nom stoerre stoere+A+Attr … er i fst, men med ein r. Nytt lemma i oahpa?
tjåetskemes tjåetskemes+A+Attr … er i fst
ij ij+V+Neg+Ind+Prs+Sg3 ij ij+V+Neg+Ind+Prt+Du1 ij ij+V+Neg+Ind+Prt+Du2 ij ij+V+Neg+Ind+Prt+Du3 ij ij+V+Neg+Ind+Prt+Pl1 ij ij+V+Neg+Ind+Prt+Pl2 ij ij+V+Neg+Ind+Prt+Pl3 ij ij+V+Neg+Ind+Prt+Sg3
lea lea+V+Ind+Prs+Sg3
edtjedh edtjedh+V+Inf
Date: 2011-10-02 09:36:44 +0200
From: Ciprian Gerstenberger <
(In reply to comment #16) Har Lene et Co. fortelt og forklart Ryan hva er nå nytt med v1, v2 flatene? Hva er konsekvensene etter innføringen av disse flagene for ordbok-paradigm-generasjon vs. spelcheker-generasjon vs. oahpa-generasjon?
Eg såg på error.log:
cat Downloads/error.log |cut -d"+" -f1|uniq|grep 'd:'|cut -d" " -f4|usmaNorm|see
Her er kommentarane mine:
Det meste her er eigentleg for Marit, Sissel og Thomas (med unntak av eit par strukturelle ting).
rektore rektore+v1+N+Sg+Nom … v1
Date: 2011-10-02 12:20:05 +0200
From: Lene Antonsen <
Dette er et resultat av at vi bruker samme fst til mange ting for øyeblikket. Vi burde hatt en løsning med bruk av dict eller oahpa flagg i kompileringa.
Nå er det lagt til v1, v2 i fst og pga at Ciprian arbeider med ordboka.
Samtidig kompilerer Ryan for oahpa, og da skal det være slik i common/src/tag-not-save.regex: 0 (<-) %+v1, 0 (<-) %+v2,
jeg skal legge denne inn, med kommentar til Ciprian om at han kommenterer den ut når han kompilerer fom dict.
Ellers så skal jeg legge til Use/NG til en del av v2, f.eks.
gt$ dsmaNorm rektore+N+Sg+Nom rektore+N+Sg+Nom rektovre <==== denne ønsker vi ikke inn i Morfa-fasiten rektore+N+Sg+Nom rektore
Jeg skal ellers se på lista, det kan også være at noen gen_only ikke er helt riktige.
Trond, vær obs på normativitet når du legger til i fst. f.eks. skal 'paahke' legges inn når vi har 'pahke' som norm? I slike tilfeller må vi heller endre i leksikonfila.
Date: 2011-10-02 14:00:38 +0200
From: Lene Antonsen <
aarehke er A i fst, men N i Oahpa - vi bør nok legge den til som N også i fst.
-vaarjoeh-ordene er som Sg i fst, jeg har endra dem til Sg i Oahpa - det er den norske oversettelsen som vil ha plural, ikke det samiske ordet. Endra oversettelsen og har fulgt opp i nobsma. Trond tar seg av swesma og finsma. Har også lagt til mer gen_only. (Dette gjelder ikke åeremevaarjoeh).
Så er det del nye lemmaer som er lagt inn i smanob, mange er prop. Disse må legges i fst, men sjekkes for normativ skrivemåte. teatere vs teaatere - denne mener jeg at jeg har endra på tidligere, men det virker som at sma-folk ikke liker teaatere (noe jeg skjønner godt), så vi får se på hva om denne egentlig skal være norm.
stoere vs stoerre - denne er problematisk fordi det tydeligvis er et ønske å ha begge med som lemma i smanob - stemmer for at vi gir dem forskjellig lemma-former i fst.
Date: 2011-10-02 21:33:57 +0200
From: Lene Antonsen <
Proper nouns som består av flere ord, f.eks. Svahken sïjte, er merka med gen_only="none", og skal ikke genereres. De skal bare brukes i Leksa, slik som de er. De har også merka med bare sem class PLACE_LEKSA.
Date: 2011-10-12 19:50:47 +0200
From: Ryan Johnson <
Created attachment 120 error log #6
Den nye loggen frå den siste fornyinga 11/10.
Attached file: error.log (application/octet-stream, 23085 bytes) Description: error log #6
Date: 2012-01-29 05:38:54 +0100
From: Trond Trosterud <
Hmm, kva er status for denne buggen?
Date: 2012-01-30 03:21:17 +0100
From: Ryan Johnson <
Hmm, skal me planleggja å fornya databasen til smaoahpa og sjå om det er noko som manglar? Eg kan også køyre fornyinga på maskina mi, slik at det ikkje forstyrr smaoahpa, men me får samme resultatet att: ei oppdatert errorfila.
Date: 2012-04-03 03:54:00 +0200
From: Ryan Johnson <
Created attachment 125 Error log for sme-oahpa generation 02/04/12
Hei,
Feil logg hev vorte mykje større enn den var til smaoahpa, p.g.a. substantivtyper, G3, Actor, Coll, osv., då er må ein nytta mange grep regler for å leite gjennom loggen for å finne det ein vil. Om dei vil, eg kan gjera det før eg laster fila opp neste gongen, men no er det løyst ved tar og gzip. ;)
R
Attached file: error.log.tgz (application/octet-stream, 464025 bytes) Description: Error log for sme-oahpa generation 02/04/12
Date: 2012-09-29 10:15:01 +0200
From: Lene Antonsen <
Bedre tittel. Denne buggen er en plassholder for filer for å kontrollere hull i genereringa, etter at databasen er fornyet. Fjernet flere CC.
Date: 2012-10-01 18:23:29 +0200
From: Lene Antonsen <
Created attachment 145 errorlog 30.09.12
error-log 30.09.12
Attached file: smaoahpa.gtoahpa.error.log (text/plain, 52329 bytes) Description: errorlog 30.09.12
This issue was created automatically with bugzilla2github
Bugzilla Bug 1065
Date: 2011-06-18T20:18:56+02:00 From: Ryan Johnson <>
To: Lene Antonsen <>
CC: ciprian.gerstenberger, heli1401, lene.antonsen, marit.fjellheim, ryan.txanson, sissel.jama, Sylvia.Sparrock, toini.bergstrom, trond.trosterud
Last updated: 2012-10-01T18:23:29+02:00