giellalt / lang-sma

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Southern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 3 forks source link

Ikke samme tagger i sma smj og sme (Bugzilla Bug 1362) #52

Closed albbas closed 12 years ago

albbas commented 12 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1362

Date: 2012-05-26T10:35:38+02:00 From: Lene Antonsen <> To: Thomas Omma <> CC: berit.nystad.eskonsipo, @ciprian.gerstenberger@gmail.com, lene.antonsen, @linda.wiechetek@uit.no, ritva.nystad, sjur.n.moshagen, trond.trosterud

Last updated: 2012-10-17T11:03:00+02:00

albbas commented 12 years ago

Comment 6365

Date: 2012-05-26 10:35:38 +0200 From: Lene Antonsen <>

Dette er for så vidt noe vi har snakka om tidligere, men jo tidligere vi gjør noe med det, jo bedre.

Det er mange tagger som er forskjellige mellom språkene og som vil skape større problemer etterhvert som sma og smj skal inngå i sammenhenger hvor vi allerede har laget ting for sme. Eks.

sma: Der/NomAg = sme: Actor sma: Der/Dim = sme: Der/Dimin

Det er irriterende når man skal generere former for å sammenlikne dem, men enda verre når vi skal tilpasse verktøy/filer til flere samiske språk, og man arbeider med MT.

Jeg foreslår at man begynner å ordne opp i dette allerede nå, dette kan vi gjøre uavhengig av en ny infrastruktur. F.eks. så må sm*-dis.rle filer og paradigmefiler oppdateres når endringer gjøres, det må testes, og det tar tid. Derfor bør man endre dette før vi har laget så mye av dette for sma og smj.

albbas commented 12 years ago

Comment 6366

Date: 2012-05-26 12:35:13 +0200 From: Trond Trosterud <>

Eg er heilt samd, vi bør halde taggane lik. Eg endra no sma Der/Dim til Der/Dimin, og ser på dei andre.

albbas commented 12 years ago

Comment 6367

Date: 2012-05-26 13:07:09 +0200 From: Lene Antonsen <>

Vær obs på Actor i sme, den har ikke Der/ som de fleste andre derivasjoner. Jeg vet ikke hva som er riktig løsning for denne, men vi bruker også Actor for å merke leksikaliserte former for å kunne skille dem fra homonyme former med annet paradigme:

vuovdi vuovdit+V+TV+Actor+N+Sg+Nom <=== form derivert fra verbet 'vuovdit' vuovdi vuovdi+Hum+N+Actor+Sg+Nom <==== leksikalisert form (samme som den deriverte) med Actor som merke for at den ikke har stadieveksling, fordi den er derivert vuovdi vuovdi+Plc+N+Sg+Nom <==== homonym i SgNom, har stadiveksling

Jeg vet ikke hva som er lurt å gjøre med denne. Der/Actor eller Der/NomAg ville være riktig for den deriverte formen, og beholde Actor for den leksikaliserte? Lemmaet for Der/Actor (evt. Der/NomAg) og Actor vil være forskjellige, så dermed er det vel egentlig logisk med forskjellige tagger?

albbas commented 12 years ago

Comment 6368

Date: 2012-05-26 18:08:21 +0200 From: Trond Trosterud <>

Ja, eg veit det, og derfor endra eg ikkje på den utan diskusjon. Eit alternativ er Der/Actor for dei deriverte og Actor for dei leksikaliserte. Men vil det vere syntaktiske ulemper ved å ikkje ha same tagg for dei?

albbas commented 12 years ago

Comment 6369

Date: 2012-05-26 20:06:19 +0200 From: Lene Antonsen <>

Syntaktisk: I sme-dis.rle kan vi definere både Actor og Der/Actor (evt Der/NomAg) i et sett.

albbas commented 12 years ago

Comment 6381

Date: 2012-05-29 09:13:35 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #4)

Syntaktisk: I sme-dis.rle kan vi definere både Actor og Der/Actor (evt Der/NomAg) i et sett.

Bra, då kan vi ha ulike taggar utan at det skapar problem i andre samanhengar. Eg trur det er bra å ha ulike taggar for lett å kunna skilja mellom dei ulike opphava.

I og med at sma ikkje har stadieveksling, så trengst vel ikkje Actor der?

Eit spørsmål om nomenklaturen:

Eg kunne tenkt meg at taggen var Der/NomAg, som ein parallell til Der/NomAct, og fordi nomen agentis er den etablerte latinske termen for slike konstruksjonar i mange språk. Dvs at Der/NomAg er meir språk-/tradisjonsuavhengig (men samtidig eit brot med innarbeidd samisk grammatikktradisjon).

Men det betyr at det ikkje lengre er ein tydeleg samanheng mellom Actor og Der/NomAg - med mindre vi endrar Actor til NomAg.

Kva synest de?

albbas commented 12 years ago

Comment 6408

Date: 2012-05-31 15:16:43 +0200 From: Lene Antonsen <>

Ang Der/Actor versus Der/NomAg så har jeg ingenting imot å velge den siste av disse to. Nickel/Sammallahti bruker ikke aktor, men handlernomen. Evt kan vi bruke N NomAg istedenfor N Actor som i dag.

Syntaktisk er det en fordel å ikke ha samme tagger den deriverte og den leksikaliserte, pga av CG-regler vi har for å foretrekke leksikalisert istedenfor deriverte former. Der må vi idag bruke (V* Actor) for å skille fra N Actor.

albbas commented 12 years ago

Comment 6410

Date: 2012-05-31 21:02:01 +0200 From: Trond Trosterud <>

I tilfelle tar vi den siste. Det er også enklare for sma-konvensjonane, dei er ikkje van med "Actor". ==> då tar vi +Der/NomAg for dei som blir morfologisk laga for alle dei ulike.

albbas commented 12 years ago

Comment 6412

Date: 2012-05-31 22:34:32 +0200 From: Lene Antonsen <>

==> då tar vi +Der/NomAg for dei som blir morfologisk

laga for alle dei ulike.

denne skjønte jeg ikke.....

spørsmålet er om vi skal ha Der/NomAg og N NomAg eller Der/NomAg og N Actor

albbas commented 12 years ago

Comment 6413

Date: 2012-05-31 22:35:41 +0200 From: Lene Antonsen <>

(In reply to comment #8)

==> då tar vi +Der/NomAg for dei som blir morfologisk

laga for alle dei ulike.

denne skjønte jeg ikke.....

spørsmålet er om vi skal ha Der/NomAg og N+NomAg eller Der/NomAg og N+Actor

albbas commented 12 years ago

Comment 6415

Date: 2012-06-01 00:34:55 +0200 From: Trond Trosterud <>

Eg vart avbroten av flyinnsjekking. Med "den siste" meinte eg Der/NomAg, som tagg for dei ulike språka.

Om vi så skal ha NomAg eller Actor som den leksikaliserte har eg ikkje sterke meiningar om. Viss Der/NomAg & NomAg ikkje medförer ulemper, og viss dei oppförer seg likt syntaktisk sett, er desse to ei god löysing.

albbas commented 12 years ago

Comment 7069

Date: 2012-10-11 11:50:42 +0200 From: Thomas Omma <>

gt $ svn ci -m "changed +Actor to +Der/NomAg" sme/src/ Sending sme/src/sme-lex.txt Transmitting file data . Committed revision 63857.

smj $ svn ci -m "changed +Actor to +Der/NomAg" src/morphology/affixes/verbs.lexc Sending src/morphology/affixes/verbs.lexc Transmitting file data . Committed revision 63858.

albbas commented 12 years ago

Comment 7082

Date: 2012-10-13 20:42:54 +0200 From: Lene Antonsen <>

(In reply to comment #11)

gt $ svn ci -m "changed +Actor to +Der/NomAg" sme/src/ Sending sme/src/sme-lex.txt Transmitting file data . Committed revision 63857.

smj $ svn ci -m "changed +Actor to +Der/NomAg" src/morphology/affixes/verbs.lexc Sending src/morphology/affixes/verbs.lexc Transmitting file data . Committed revision 63858.

Dette ble feil. Det er bare de som blir derivert i fst som skal har Der/
De leksikaliserte skal ha NomAg - se diskusjonen over her. Det er viktig at de leksikaliserte formene ikke framstilles som om de er blitt derivert i fst, ikke minst for disambigeringa.

oahppi oahppi oahppat+V+TV+Der/NomAg+N+Sg+Nom oahppi oahppat+V+TV+Der/NomAg+N+Sg+Gen oahppi oahppat+V+TV+Der/NomAg+N+Sg+Acc oahppi oahppi+Hum+N+Der/NomAg+Sg+Nom <===== +N+NomAg+ osv oahppi oahppi+Hum+N+Der/NomAg+Sg+Gen oahppi oahppi+Hum+N+Der/NomAg+Sg+Acc

albbas commented 12 years ago

Comment 7085

Date: 2012-10-14 16:28:29 +0200 From: Lene Antonsen <>

gt$ svn ci -m "Fra Der/NomAg til NomAg for leksikaliserte substantiver" sme/src/sme-lex.txt gt$ svn ci -m "Endra noen Actor til NomAg" sme/src/noun-sme-lex.txt Sending sme/src/noun-sme-lex.txt Transmitting file data . Committed revision 63930.

albbas commented 12 years ago

Comment 7087

Date: 2012-10-14 19:36:14 +0200 From: Lene Antonsen <>

src$ svn ci -m "Endra alle Actor i sme til NomAg" Sending src/dis-tag.txt Sending src/speller-filter.regex Sending src/tag-no.regex Sending src/tag-not-save-but-oahpa.regex Sending src/tag-pos.regex Sending src/tag-sme.regex Transmitting file data ...... Committed revision 63940.

Nå fungerer generering: src$ dsme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% oahppi+N+Sg+Com oahppi+N+Sg+Com ohppiin oahppi+N+Sg+Com oahppiin

Her også endra i leksikonfilene for Oahpa og dict, og i paradigmegenereringsfilene for disse.

albbas commented 12 years ago

Comment 7088

Date: 2012-10-14 19:39:15 +0200 From: Lene Antonsen <>

Author: lene Date: 2012-10-13 22:51:50 +0200 (láv, 13 golg 2012) New Revision: 63925

Modified: trunk/gt/sme/src/sme-dis.rle Log: NomAg og Der/NomAg istedenfor Actor

sme$ svn ci -m "Oppdaterte tagger, NomAg, Der/NomAg og Der/NomAct." src/sme-ped.cg3 Sending src/sme-ped.cg3 Transmitting file data . Committed revision 63943.

albbas commented 12 years ago

Comment 7092

Date: 2012-10-14 20:25:02 +0200 From: Lene Antonsen <>

Ciprian - vær obs på at Actor er erstatta med NomAg

albbas commented 12 years ago

Comment 7093

Date: 2012-10-15 09:05:25 +0200 From: Thomas Omma <>

so noš it is fičed again!

albbas commented 12 years ago

Comment 7114

Date: 2012-10-17 10:51:58 +0200 From: Ritva Nystad <>

Jeg kom over et set i sme-dis.rle:

SET VERB = V - Der/NomAct - Der/NomAg;

Har fått med meg at Der/NomAg har erstattet Actor, men jeg lurer på hva Der/NomAct står for? Kan det være "Nomen Actor" eller "Nominativ Actio"? Prøvde å lete etter dokumentasjon på internettsiden vår, sme-lex.txt og docu-sme-grammartags.xml uten å finne svar på spørsmålet. Håper noen kan dokumentere dette på internettsiden til giellatekno.

albbas commented 12 years ago

Comment 7115

Date: 2012-10-17 11:03:00 +0200 From: Lene Antonsen <>

(In reply to comment #18)

Jeg kom over et set i sme-dis.rle:

SET VERB = V - Der/NomAct - Der/NomAg;

Har fått med meg at Der/NomAg har erstattet Actor, men jeg lurer på hva Der/NomAct står for? Kan det være "Nomen Actor" eller "Nominativ Actio"? Prøvde å lete etter dokumentasjon på internettsiden vår, sme-lex.txt og docu-sme-grammartags.xml uten å finne svar på spørsmålet. Håper noen kan dokumentere dette på internettsiden til giellatekno.

Det er riktig at våre nye tagger ikke er dokumentert. Her er diskusjonen vi hadde om dette: http://giellatekno.uit.no/doc/lang/common/RedefiningActio.html Kanskje du kunne legge inn dokumentasjon?