giellalt / bugzilla-dummy

0 stars 0 forks source link

Resultat av generering til Oahpa - lister for kontroll (Bugzilla Bug 1065) #1174

Open albbas opened 13 years ago

albbas commented 13 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1065

Date: 2011-06-18T20:18:56+02:00 From: Ryan Johnson <> To: Lene Antonsen <> CC: ciprian.gerstenberger, heli1401, lene.antonsen, marit.fjellheim, ryan.txanson, sissel.jama, Sylvia.Sparrock, toini.bergstrom, trond.trosterud

Last updated: 2012-10-01T18:23:29+02:00

albbas commented 13 years ago

Comment 4552

Date: 2011-06-18 20:18:56 +0200 From: Ryan Johnson <>

Created attachment 107 Non-generated forms

Hei,

Eg forandra installeringskript til smaoahpa slik at det gjev former som vart ikkje genererte. Her er error.log frå siste installering. Det er mykje linjer, men det er ikkje so mange ord med feil. Fordi systemet køyrer tre gong per FST, so viser det ofte eit ord tre forskjellege gong. Om noko er uklårt, berre sei ifrå. :)

Log-filen som er vedlagt er rå, men det kan vera ein god idé å nytta 'sort -u' for å bla gjennom den.

Attached file: victorio.error.log (application/octet-stream, 61134 bytes) Description: Non-generated forms

albbas commented 13 years ago

Comment 4553

Date: 2011-06-18 22:55:43 +0200 From: Lene Antonsen <>

Kommentarer til lista: Feil i sma-lex.txt gjorde at en del ord ikke blei generert. Jeg har retta denne feilen. Det gjelder disse ordene: aahka, aajja, aehtjaahka, aehtjaajja, gåmma, hosbåanta, jåvleaajja, maadteraahka, maadteraajja, onneåabpa, stoerreåabpa, tjidtjaahka, tjidtjaajja, åabpa

Flertallsord som ikke skal ha Sg-former, bare Pl-former: aajkoehkadtjh, bægkah, bïevsterh, daajh, daalhkesh, deerpegh, dïjnehkh, eejhtegh, föörhkelh, haelieh, jaavvoeh, jovnesåhkoeh, klaasetjelmieh, klååmsehth, laeviehkadtjh, loevtenjidtjieh, prïhtjegh, pæhperh, rohkejaavvoeh, sluekieh, syhtjegh, sysngelasjh, tjåenieh, veetejaavvoeh, voehpealmetjh, åabpetjh, åeremevaarjoeh, åerpienadtjh, vïelletjh, gåaromedeerpegh

Ord om værforhold som skal ha Sg+Nom: amhkedh, buaredh, golkedh, guakedh, nïmmerh, samhkedh, moenjehth

Ord som ikke var norm, nå retta i n_smanob.xml eller lagt til i fst: artigkele, horhtje, mojnestimmie, prïhtjhvoesse, raadio, sliehtieelmie, teatere, tjaktjelaante, traktovre, tåårske,

Denne skal strykes: gåmmebe, det er ikke et lemma

albbas commented 13 years ago

Comment 4554

Date: 2011-06-18 22:59:15 +0200 From: Lene Antonsen <>

Jeg har fjerna gåmmebe.

albbas commented 13 years ago

Comment 4569

Date: 2011-06-19 14:55:52 +0200 From: Ryan Johnson <>

Created attachment 108 Generation fail #2

Oopdatert versjon til siste error.log

Attached file: victorio.error.log (application/octet-stream, 154448 bytes) Description: Generation fail #2

albbas commented 13 years ago

Comment 4570

Date: 2011-06-19 15:27:10 +0200 From: Trond Trosterud <>

Desse er ulike. For Prop er dei fleste fleirordsamn (Saemien Sijte). For substantiv er alle saman fleirtalssubstantiv:

aajkoehkadtjh,amhkedh,buaredh,bægkah,bïevsterh,daajh,daalhkesh,deerpegh,dïjnehkh,eejhtegh,föörhkelh,golkedh,guakedh,gåaromedeerpegh,haelieh,jaavvoeh,jovnesåhkoeh,klaasetjelmieh,klååmsehth,laeviehkadtjh,loevtenjidtjieh,moenjehth,nïmmerh,prïhtjegh,pæhperh,rohkejaavvoeh,samhkedh,sluekieh,syhtjegh,sysngelasjh,tjåenieh,veetejaavvoeh,voehpealmetjh,vïelletjh,åabpetjh,åeremevaarjoeh,åerpienadtjh,

Dei generer ikkje eintalsformer, berre fleirtalsformer. Dei andre skal eg sjå på.

albbas commented 13 years ago

Comment 4571

Date: 2011-06-19 15:27:56 +0200 From: Trond Trosterud <>

~$echo "syhtjegh+N+Pl+Nom"|dsmaNorm syhtjegh+N+Pl+Nom syhtjegh

osb.

albbas commented 13 years ago

Comment 4572

Date: 2011-06-19 15:41:25 +0200 From: Trond Trosterud <>

Dei som står i errorreport utan tag, er alle adverb. To av dei står ikkje i analysatoren, dei bör inn (eller ut), i tillegg er det eit adverb utan adverb-analyse:

boelvjöölki boelvjöölki +? easkan easkan +? iehkeden iehkede+N+Sg+Gen

albbas commented 13 years ago

Comment 4578

Date: 2011-06-20 16:14:55 +0200 From: Lene Antonsen <>

Jeg har lagt til easkan og iehkeden i fst. boelvjöölki er korrigert til boelvhjöölki i xml-fila.

albbas commented 13 years ago

Comment 4664

Date: 2011-06-28 22:49:51 +0200 From: Ryan Johnson <>

Created attachment 109 generation error log #3

Attached file: generation.log (application/octet-stream, 108615 bytes) Description: generation error log #3

albbas commented 13 years ago

Comment 4665

Date: 2011-06-28 22:50:39 +0200 From: Ryan Johnson <>

Mens eg lada testdatabasen min på nytt eg laga ein ny log. Ser mykje betre ut. :)

albbas commented 13 years ago

Comment 4666

Date: 2011-06-28 23:12:45 +0200 From: Lene Antonsen <>

jeg skal se på lista. Det er gjort forandringer i sma-fst de siste par dagene om hva som er lemma.

Noen av entryene skal ikke generes - f.eks. 'Ubmeje tjeälddie'. Vi burde ha en attributtverdi for slike også. gen_only="none" - eller har du et anna forslag?

albbas commented 13 years ago

Comment 4667

Date: 2011-06-28 23:16:17 +0200 From: Ryan Johnson <>

"none" går bra, fordi det er ingen tag som matcher. Berre merk deim med "none", då. :)

albbas commented 13 years ago

Comment 4714

Date: 2011-07-12 10:46:43 +0200 From: Ryan Johnson <>

Created attachment 110 generation error log #4

Mykje betre!

Attached file: victorio.error.log (application/octet-stream, 9381 bytes) Description: generation error log #4

albbas commented 13 years ago

Comment 4715

Date: 2011-07-13 08:49:52 +0200 From: Lene Antonsen <>

Jeg har redigert gen_only for adjektivene. Jeg hadde endra en del i fst og glemt å redigere attibuttene.

De fleste stedsnavnene som ikke ble generert, har gen_only="none". Resten av stedsnavnene er ikke avklart hva som er normert skrivemåte, derfor generers dem ikke. Vi skal se på dem etter ferien. "ij" har type="Neg", "lea" og "edtjedh" har ikke fullt paradigme.

albbas commented 13 years ago

Comment 5223

Date: 2011-10-02 04:00:15 +0200 From: Ryan Johnson <>

Created attachment 117 error log #5

Attached file: error.log (application/octet-stream, 39015 bytes) Description: error log #5

albbas commented 13 years ago

Comment 5224

Date: 2011-10-02 04:00:33 +0200 From: Ryan Johnson <>

Her er ein ny generasjon logg.

albbas commented 13 years ago

Comment 5225

Date: 2011-10-02 09:16:18 +0200 From: Trond Trosterud <>

Eg såg på error.log:

cat Downloads/error.log |cut -d"+" -f1|uniq|grep 'd:'|cut -d" " -f4|usmaNorm|see

Her er kommentarane mine:

Det meste her er eigentleg for Marit, Sissel og Thomas (med unntak av eit par strukturelle ting).

aarehke: burde fungere: aarehke aarehke+A+Sg+Nom … er i fst

gaevnieh: er pl gaevnieh gaevnie+N+Pl+Nom gaevnieh gaevnieh+N+Pl+Nom

goerehtalleme
lagt til i fst.

gårroehbielie gårroeh+A+Attr#bielie+N+Sg+Nom lagt til i fst.

jïevege jïevege +? manglar i fst.

lijhkievaarjoeh lijhkie#vaarjoe+N+Pl+Nom er pl

motovre motovre+v1+N+Sg+Nom v1 …

paahke paahke +? lagt til i fst

raajnevaarjoeh raajnes+A+SgNomCmp#vaarjoe+N+Pl+Nom raajnevaarjoeh raajne#vaarjoe+N+Pl+Nom er pl

sliehtehke sliehtehke +? Har mörk ï i fst. Endre i oahpa? gt/sma/src/noun-sma-lex.txt:slïehtehke+CmpN/SgN+CmpN/SgG+CmpN/PlG:slïehtehk N_ODD ;

teatere teatere +? Norm med aa: gt/sma/src/typos.txt:teatere teaatere Endre i oahpa?

traasta traasta +? norm med a: gt/sma/src/noun-sma-lex.txt:traste+Use/Sub:traast NIEJTE ; gt/sma/src/noun-sma-lex.txt:traste:trast ANTE/ISTE_LOAN ; endre i oahpa?

traktore traktore+v1+N+Sg+Nom v1…

voerhkedahke voerhkedahke +? ikkje i fst

bæjngoldsvaarjoeh bæjngolds+N+CmpN/Pref#vaarjoe+N+Pl+Nom bæjngoldsvaarjoeh bæjngolds#vaarjoe+N+Pl+Nom

sååkehtje sååkehtje+A+Sg+Nom sååkehtje sååkehtje+A+Attr

sååkehtjekraesie sååkehtje+A+Attr#kraesie+N+Sg+Nom lagt til i fst

rektore rektore+v1+N+Sg+Nom … v1

Kanada Kanada +? … er merka Sub i fst. Vi bör endre i Oahpa eller i fst.

Åarjel-Afrika åarjel+N+CmpN/Pref-#Afrika+N+Prop+Plc+Attr Åarjel-Afrika åarjel+N+CmpN/Pref-#Afrika+N+Prop+Plc+Sg+Nom lagt til i fst

Fijhpeljaevrie Fijhpeljaevrie +? lagt til i fst

Gaajsetjh gaejsie+N+Der/Dim+N+Pl+Nom Gaajsetjh Gaajsetjh+N+Prop+Plc+Pl+Nom er fleirtal

Pliehkiejaevrieh pliehkie+N+SgNomCmp#jaevrie+N+Pl+Nom Pliehkiejaevrieh pliehkie+N+PlGenCmp#aevrie+N+Pl+Nom Pliehkiejaevrieh Pliehkiejaevrieh+N+Prop+Plc+Pl+Nom er fleirtal

bååktjehke bååktjehke+A+Sg+Nom er i fst

plïehtje plïehtje+N+Sg+Nom plïehtje plïehtje+A+Sg+Nom plïehtje plïehtje+A+Attr … er i fst

sjeavohth sjeavohth+A+Sg+Nom … er i fst

stoerre stoere+A+Sg+Nom stoerre stoere+A+Attr … er i fst, men med ein r. Nytt lemma i oahpa?

tjåetskemes tjåetskemes+A+Attr … er i fst

ij ij+V+Neg+Ind+Prs+Sg3 ij ij+V+Neg+Ind+Prt+Du1 ij ij+V+Neg+Ind+Prt+Du2 ij ij+V+Neg+Ind+Prt+Du3 ij ij+V+Neg+Ind+Prt+Pl1 ij ij+V+Neg+Ind+Prt+Pl2 ij ij+V+Neg+Ind+Prt+Pl3 ij ij+V+Neg+Ind+Prt+Sg3

lea lea+V+Ind+Prs+Sg3

edtjedh edtjedh+V+Inf

albbas commented 13 years ago

Comment 5226

Date: 2011-10-02 09:36:44 +0200 From: Ciprian Gerstenberger <>

(In reply to comment #16) Har Lene et Co. fortelt og forklart Ryan hva er nå nytt med v1, v2 flatene? Hva er konsekvensene etter innføringen av disse flagene for ordbok-paradigm-generasjon vs. spelcheker-generasjon vs. oahpa-generasjon?

Eg såg på error.log:

cat Downloads/error.log |cut -d"+" -f1|uniq|grep 'd:'|cut -d" " -f4|usmaNorm|see

Her er kommentarane mine:

Det meste her er eigentleg for Marit, Sissel og Thomas (med unntak av eit par strukturelle ting).

rektore rektore+v1+N+Sg+Nom … v1

albbas commented 13 years ago

Comment 5227

Date: 2011-10-02 12:20:05 +0200 From: Lene Antonsen <>

Dette er et resultat av at vi bruker samme fst til mange ting for øyeblikket. Vi burde hatt en løsning med bruk av dict eller oahpa flagg i kompileringa.

Nå er det lagt til v1, v2 i fst og pga at Ciprian arbeider med ordboka.

Samtidig kompilerer Ryan for oahpa, og da skal det være slik i common/src/tag-not-save.regex: 0 (<-) %+v1, 0 (<-) %+v2,

jeg skal legge denne inn, med kommentar til Ciprian om at han kommenterer den ut når han kompilerer fom dict.

Ellers så skal jeg legge til Use/NG til en del av v2, f.eks.

gt$ dsmaNorm rektore+N+Sg+Nom rektore+N+Sg+Nom rektovre <==== denne ønsker vi ikke inn i Morfa-fasiten rektore+N+Sg+Nom rektore

Jeg skal ellers se på lista, det kan også være at noen gen_only ikke er helt riktige.

Trond, vær obs på normativitet når du legger til i fst. f.eks. skal 'paahke' legges inn når vi har 'pahke' som norm? I slike tilfeller må vi heller endre i leksikonfila.

albbas commented 13 years ago

Comment 5228

Date: 2011-10-02 14:00:38 +0200 From: Lene Antonsen <>

aarehke er A i fst, men N i Oahpa - vi bør nok legge den til som N også i fst.

-vaarjoeh-ordene er som Sg i fst, jeg har endra dem til Sg i Oahpa - det er den norske oversettelsen som vil ha plural, ikke det samiske ordet. Endra oversettelsen og har fulgt opp i nobsma. Trond tar seg av swesma og finsma. Har også lagt til mer gen_only. (Dette gjelder ikke åeremevaarjoeh).

Så er det del nye lemmaer som er lagt inn i smanob, mange er prop. Disse må legges i fst, men sjekkes for normativ skrivemåte. teatere vs teaatere - denne mener jeg at jeg har endra på tidligere, men det virker som at sma-folk ikke liker teaatere (noe jeg skjønner godt), så vi får se på hva om denne egentlig skal være norm.

stoere vs stoerre - denne er problematisk fordi det tydeligvis er et ønske å ha begge med som lemma i smanob - stemmer for at vi gir dem forskjellig lemma-former i fst.

albbas commented 13 years ago

Comment 5229

Date: 2011-10-02 21:33:57 +0200 From: Lene Antonsen <>

Proper nouns som består av flere ord, f.eks. Svahken sïjte, er merka med gen_only="none", og skal ikke genereres. De skal bare brukes i Leksa, slik som de er. De har også merka med bare sem class PLACE_LEKSA.

albbas commented 13 years ago

Comment 5317

Date: 2011-10-12 19:50:47 +0200 From: Ryan Johnson <>

Created attachment 120 error log #6

Den nye loggen frå den siste fornyinga 11/10.

Attached file: error.log (application/octet-stream, 23085 bytes) Description: error log #6

albbas commented 12 years ago

Comment 5671

Date: 2012-01-29 05:38:54 +0100 From: Trond Trosterud <>

Hmm, kva er status for denne buggen?

albbas commented 12 years ago

Comment 5682

Date: 2012-01-30 03:21:17 +0100 From: Ryan Johnson <>

Hmm, skal me planleggja å fornya databasen til smaoahpa og sjå om det er noko som manglar? Eg kan også køyre fornyinga på maskina mi, slik at det ikkje forstyrr smaoahpa, men me får samme resultatet att: ei oppdatert errorfila.

albbas commented 12 years ago

Comment 5979

Date: 2012-04-03 03:54:00 +0200 From: Ryan Johnson <>

Created attachment 125 Error log for sme-oahpa generation 02/04/12

Hei,

Feil logg hev vorte mykje større enn den var til smaoahpa, p.g.a. substantivtyper, G3, Actor, Coll, osv., då er må ein nytta mange grep regler for å leite gjennom loggen for å finne det ein vil. Om dei vil, eg kan gjera det før eg laster fila opp neste gongen, men no er det løyst ved tar og gzip. ;)

R

Attached file: error.log.tgz (application/octet-stream, 464025 bytes) Description: Error log for sme-oahpa generation 02/04/12

albbas commented 12 years ago

Comment 6974

Date: 2012-09-29 10:15:01 +0200 From: Lene Antonsen <>

Bedre tittel. Denne buggen er en plassholder for filer for å kontrollere hull i genereringa, etter at databasen er fornyet. Fjernet flere CC.

albbas commented 12 years ago

Comment 6993

Date: 2012-10-01 18:23:29 +0200 From: Lene Antonsen <>

Created attachment 145 errorlog 30.09.12

error-log 30.09.12

Attached file: smaoahpa.gtoahpa.error.log (text/plain, 52329 bytes) Description: errorlog 30.09.12