giellalt / shared-smi

Shared Sámi lexical resources
GNU General Public License v3.0
2 stars 0 forks source link

Semtag categories (Bugzilla Bug 2593) #15

Open albbas opened 5 years ago

albbas commented 5 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2593

Date: 2019-05-27T16:30:45+02:00 From: Linda Wiechetek <> To: Linda Wiechetek <> CC: elena.j.paulsen, lene.antonsen, linda.wiechetek, maja.l.kappfjell, marja-liisa.olthuis, rueter.jack, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2020-04-17T12:05:04+02:00

albbas commented 5 years ago

Comment 13463

Date: 2019-05-27 16:30:45 +0200 From: Linda Wiechetek <>

Her vil vi ha diskusjoner angånde semantiske kategorier, bruk av tagger, overflødige tagger, muligens flere distinksjoner, osv. Det blir lettere å følge med og dokumentere på denne måten.

albbas commented 5 years ago

Comment 13464

Date: 2019-05-27 16:57:43 +0200 From: Lene Antonsen <>

Spørsmål om hovedtagg og undergruppe.

De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde av hovedkategorien, f.eks.

+Sem/Tool
+Sem/Tool-catch
+Sem/Tool-clean
+Sem/Tool-it
+Sem/Tool-measr
+Sem/Tool-music
+Sem/Tool-write

Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere.

Hvordan er det med -part? +Sem/Build-part
+Sem/Clth-part
+Sem/Plant-part

Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa, lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki, men ikke soahkelasta?

Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der, men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av hovedkategorien.

albbas commented 5 years ago

Comment 13465

Date: 2019-05-27 17:18:00 +0200 From: Lene Antonsen <>

I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn men vi har ingen Feat-cogn

Vi har: LIST Sem/Feat-measr = LIST Sem/Feat-phys = LIST Sem/Feat-psych =

Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych?

albbas commented 5 years ago

Comment 13466

Date: 2019-05-27 17:43:22 +0200 From: Lene Antonsen <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av hovedkategorien.

Jeg foreslå part uten bindestrek:

+Sem/Buildpart
+Sem/Clthpart
+Sem/Plantpart

tilsvarende at vi har

+Sem/Aniprod som jo er noe annet enn

+Sem/Ani +Sem/Ani-fish

Dvs at med bindestrek: underkategori uten bindestrek: en ny hovedkategori

albbas commented 5 years ago

Comment 13467

Date: 2019-05-28 10:25:59 +0200 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde av hovedkategorien, f.eks.

+Sem/Tool
+Sem/Tool-catch
+Sem/Tool-clean
+Sem/Tool-it
+Sem/Tool-measr
+Sem/Tool-music
+Sem/Tool-write

Dette vil si at vi i CG legger alle disse under Sem/Tool, f.eks. for å finne komitativ vs. lokativ, bortsett fra de gangene vi ønsker å differensiere.

Hvordan er det med -part? +Sem/Build-part
+Sem/Clth-part
+Sem/Plant-part

Jeg ser at +Sem/Clth-part er slike ting som man ikke kler på seg (riesa, lubma), Sem/Plant-part er kanskje litt samme fordi man kan plante soahki, men ikke soahkelasta?

Jeg ser at Sem/Build-part som oftest er rom, f.eks. gievkkan. Sem/Build har ikke ekstra tagg Sem/Plc, men ved å være Sem/Build, tar vi dette settet med i PLACE-kategorien. De fleste medlemmene av +Sem/Build-part passer også der, men ikke alle, fordi her er også noen medlemmer som seaidni og sis-gáhttu.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av hovedkategorien.

Ja det er sånn som du sier og for å bli konsekvent foreslår æ at vi skriver:

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart

i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.

Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:

Sem/Build-room

albbas commented 5 years ago

Comment 13468

Date: 2019-05-28 10:28:41 +0200 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#2)

I sme-katalogen har vi denne taggen lea +Sem/Body-abstr_Feat-cogn men vi har ingen Feat-cogn

Vi har: LIST Sem/Feat-measr = LIST Sem/Feat-phys = LIST Sem/Feat-psych =

Skal +Sem/Body-abstr_Feat-cogn egentlig være +Sem/Body-abstr_Feat-psych?

Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger.

albbas commented 5 years ago

Comment 13469

Date: 2019-05-28 10:33:44 +0200 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#3)

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

Dette burde differensieres. Hvis det passer å si at -part ikke har samme syntaktiske kjennetegn som hovedkategorien, kunne vi lage et sett +Sem/Build-room for gievkkan med venner? Dette sette vil man også intuitivt forstå at inneholder substantiv som passer inn i PLACE.

Og da kan vi ha som hovedregel at -part-settene ikke er delsett av hovedkategorien.

Jeg foreslå part uten bindestrek:

+Sem/Buildpart
+Sem/Clthpart
+Sem/Plantpart

tilsvarende at vi har

+Sem/Aniprod som jo er noe annet enn

+Sem/Ani +Sem/Ani-fish

Dvs at med bindestrek: underkategori uten bindestrek: en ny hovedkategori

Ja, æ er enig. Foreslo akkurat det samme uten at æ så kommentaren din :)

albbas commented 5 years ago

Comment 13470

Date: 2019-05-28 10:40:11 +0200 From: Lene Antonsen <>

Ja, vi tar Feat-psych og sletter Feat-cogn. Tror det kanskje er en feil at Feat-cogn kom inn. Æ har det ihvertfall ikke i min liste over mulige tagger.

jeg har sjekket inn endringene i sme, smj og smn.

albbas commented 5 years ago

Comment 13471

Date: 2019-05-28 10:42:46 +0200 From: Lene Antonsen <>

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart

i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.

Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:

Sem/Build-room

Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt lingvist for sitt språk. Jeg kan ta sme.

albbas commented 5 years ago

Comment 13472

Date: 2019-05-28 14:20:54 +0200 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#8)

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart

i ett ord for det som ikke kan karakteriseres som Build, Clth eller Plant.

Og at vi lager den taggen du foreslår for ord som "gievkan", dvs.:

Sem/Build-room

Jeg kan endre dette for de samiske språkene. Når det gjelder å endre fra Sem/Buildpart til Sem/Build-room, så bør dette gjøres av hver enkelt lingvist for sitt språk. Jeg kan ta sme.

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra når du er ferdig.

albbas commented 5 years ago

Comment 13473

Date: 2019-05-28 15:14:15 +0200 From: Lene Antonsen <>

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra når du er ferdig.

Jeg er ferdig.

albbas commented 5 years ago

Comment 13476

Date: 2019-05-29 13:49:21 +0200 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#10)

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra når du er ferdig.

Jeg er ferdig.

Takk! Da setter æ igang.

albbas commented 5 years ago

Comment 13478

Date: 2019-05-29 15:57:51 +0200 From: Linda Wiechetek <>

(In reply to Linda Wiechetek from comment giellalt/bugzilla-dummy#11)

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#10)

Æ forandrer i sme gramchk-filan når leksikonet er klar. Så gjerne si ifra når du er ferdig.

Jeg er ferdig.

Takk! Da setter æ igang.

Nå har æ oppdatert de semantiske taggan i valency.cg3, grammarchecker.cg3 og mwe-dis.cg3:

Sem/Buildpart
Sem/Clthpart
Sem/Plantpart Sem/Build-room

albbas commented 5 years ago

Comment 13479

Date: 2019-05-29 16:00:07 +0200 From: Lene Antonsen <>

Jeg har laget et forslag til automatisk skripting for å oppdatere taggene alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke.

albbas commented 5 years ago

Comment 13482

Date: 2019-05-31 11:33:42 +0200 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#13)

Jeg har laget et forslag til automatisk skripting for å oppdatere taggene alle steder hvor de skal oppdateres, vi kan diskutere dette i neste uke.

Inkluderer det taggdefinisjonan av denne typen?

LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ;

Dvs. blir alle nye tagkombinasjonan oppdatert i settan?

albbas commented 5 years ago

Comment 13483

Date: 2019-05-31 12:47:51 +0200 From: Lene Antonsen <>

Inkluderer det taggdefinisjonan av denne typen?

LIST Sem/Body = Sem/Body Sem/Body_Body-abstr Sem/Body_Clth Sem/Body_Food Sem/Body_Group_Hum Sem/Body_Group_Hum_Time Sem/Body_Hum Sem/Body_Mat Sem/Body_Measr Sem/Body_Obj_Tool-catch Sem/Body_Plc Sem/Body_Time ;

Dvs. blir alle nye tagkombinasjonan oppdatert i settan?

Ja, det er meninga. Semtaggene skal inn i flere filer i forskjellige formater, og meninga er at skriptet skal gjøre dette. Jeg har laget et halvferdig skript, men jeg trenger hjelp til å gjøre det helt ferdig. Og vi må se på noen tekniske løsninger, som f.eks. å ha semsettene i en egen fil som inkluderes i cg3-fila via INCLUDE, slik som jeg nå har gjort for sme. Men meninga var at vi diskuterer dette på møtet slik at vi kan ta hensyn til alle filer og behov når det gjelder semsettene.

albbas commented 5 years ago

Comment 13487

Date: 2019-06-05 09:19:38 +0200 From: Elena Junie Paulsen <>

Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg. Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder, samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio; dvs veldig varierende fra "program" til "program" :-)

Her er de utaggede fra smj (er laangt flere i sma): belludakprográmma gæhttjaladdamprográmma kvalitæhttaprográmma lånudallamprográmma nuppástuhttemprográmma oasseprográmma rekruttierimprográmma teknihkkaprográmma vitalisierimprográmma válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert) álggoálmmukprográmma árvvobuvtadimprográmma åvdedimprográmma

prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it -men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i hvertfall? Og hva med Txt???

albbas commented 5 years ago

Comment 13491

Date: 2019-06-06 10:30:03 +0200 From: Linda Wiechetek <>

(In reply to Elena Junie Paulsen from comment giellalt/bugzilla-dummy#16)

Noen som vil se på sammensatte ord som slutter på -prográmma sammen med meg. Det er todelt utfordring; forstå hva begrepene faktisk betyr/inneholder, samt tag'e de med riktig Sem-tag ut i fra dette. De tag'ene som går igjen for denne "ordgruppen" er sålangt Act, Edu, Tool-it, Prod-vis, Prod-audio; dvs veldig varierende fra "program" til "program" :-)

Her er de utaggede fra smj (er laangt flere i sma): belludakprográmma gæhttjaladdamprográmma kvalitæhttaprográmma lånudallamprográmma nuppástuhttemprográmma oasseprográmma rekruttierimprográmma teknihkkaprográmma vitalisierimprográmma válggaprográmma (taget med Sem/Prod, uvisst om det er for uspesifisert) álggoálmmukprográmma árvvobuvtadimprográmma åvdedimprográmma

prográmma som enkeltstående ord er nå tagget +Sem/Act_Tool-it -men det skulle strengt tatt også vært tagget med Edu, Prod-vis også, i hvertfall? Og hva med Txt???

I sme ser det slik ut: når det er et dataprogram så blir det Sem/Tool-it når det er et programm som et parti (belludakprográmma?) eller en organisasjon har så burde det bli Txt Txt fordi det går an å si "I programmet står det følgende" eller "Programmet sier følgende" Act skal det bli når det er en rekke av aktiviteter og man kan si "prográmma maŋŋel" Edu burde det være når man kan si: "Mun váccán ...prográmma", sånn som man kan si "Mun váccán skuvlla", hvis det ikke går an å si det om bare prográmma, så burde det ikke få Edu

Når det er noe man kan se på, sånn som et TV-program, så burde det være Prod-vis. Om man kan si "Mun geahčan prográmma" så kan "prográmma" få Prod-vis også.

Det er lurt å se i korpus om ordan virkelig blir brukt sånn som man tror. Man kan får store overraskelser..

albbas commented 5 years ago

Comment 13493

Date: 2019-06-13 13:01:25 +0200 From: Linda Wiechetek <>

Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren: smj/src/syntax/disambiguator.cg3 også.

albbas commented 5 years ago

Comment 13494

Date: 2019-06-13 14:29:08 +0200 From: Lene Antonsen <>

(In reply to Linda Wiechetek from comment giellalt/bugzilla-dummy#18)

Nå har æ oppdatert semtaggan i den lulesamiske disambiguatoren: smj/src/syntax/disambiguator.cg3 også.

og jeg har oppdatert sme, smn, sma

albbas commented 4 years ago

Comment 13877

Date: 2020-04-02 09:27:45 +0200 From: Jack Rueter <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Spørsmål om hovedtagg og undergruppe.

De mange tilfeller har vi hovedkategori og under-gruppe som er en delmengde av hovedkategorien, f.eks.

+Sem/Tool
+Sem/Tool-catch
+Sem/Tool-clean
+Sem/Tool-it
+Sem/Tool-measr
+Sem/Tool-music
+Sem/Tool-write

I am working with languages in the Russian environment where names include both GENDER and TYPE: +Sem/Fem +Sem/Mal

+Sem/Sur +Sem/Patr +Sem/Ant (This is Apertium for anthroponym, which I quess would distinguish them from dog, cat and other names for pets. Russian has nick names that do not distinguish Fem vs Mal, so it is good to know which Sasha or Evgeni you are talking about.)

My question is one of categorization:

+Sem/Sur-Fem, +Sem/Patr-Mal, +Sem/Ant-Fem or possibly just +Sem/Fem, +Sem/Mal OR +Sem/Fem-Sur, Sem/Mal-Patr, +Sem/Fem-Ant or simply +Sem/Fem, Sem/Mal

There are merits to both: +Sem/Sur, +Sem/Patr, +Sem/Ant automatically indicates that we are dealing with names.

+Sem/Fem(-...) and +Sem/Mal(-...) indicates we are dealing with categories that might have direct bearing on congruence.

albbas commented 4 years ago

Comment 13879

Date: 2020-04-02 10:21:44 +0200 From: Sjur Nørstebø Moshagen <>

Eg føreslår at slike allmenne diskusjonar blir flytta over i Zulip, t.d. https://giella.zulipchat.com/#narrow/stream/124588-all_langs, og med ein eigen tråd, t.d. #Semtags.

I suggest we use Zulip and not Bugzilla for discussions like these, going forward.

albbas commented 4 years ago

Comment 13891

Date: 2020-04-17 12:05:04 +0200 From: Linda Wiechetek <>

virker å være en god løsning