giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

dynamisk cmp med adverb ( #234

Open albbas opened 7 years ago

albbas commented 7 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2263

Date: 2016-11-17T10:09:03+01:00 From: Lene Antonsen <> To: Thomas Omma <> CC: lene.antonsen, linda.wiechetek, sandra.rahka, sjur.n.moshagen, trond.trosterud

Last updated: 2016-11-17T21:13:47+01:00

albbas commented 7 years ago

Comment 11689

Date: 2016-11-17 10:09:03 +0100 From: Lene Antonsen <>

Et sak i diskusjonenen om sammensetninger. Dette kommer også opp som et problem når vi lager statistikker over forskjellige typer Cmp, vi får ikke et riktig bilde.

Vi har idag to stier for sammensetning fra adverbfila:

LEXICON gadv !!= * @CODE@ adv that can form compounds
+Adv:%> R ;

LEXICON gadv-plc !!= * @CODE@ adv that can form compounds
+Adv+Sem/Plc+Err/Orth:%> R ;
+Adv+Sem/Plc:%> RHyph ;

Her er adverbene som går til disse to kontleksene: dieppe:dieppe gadv-plc ; doppe:doppe gadv-plc ; duoppe:duoppe gadv-plc ; dáppe:dáppe gadv-plc ; rastá:rastá gadv-plc ; sierra:sierra gadv ;

Første spørsmål er om +Err/Orth er riktig? Vi har leksikalisert en del substantiver med dáppe/doppe som førsteledd, uten hyph, og denne typen sammensetning ser ut til å være produktiv. Kanskje burde det være en -Spell tagg istedenfor, hvis man er redd problematiske sammensetninger for spelleren. dieppe- ord kan være problematiske for sammensetninger med diehppi (diehppe-), men Err/Orth likevel ikke riktig tagg?

Andre spørsmål: Flere adverber bør få dynamisk Cmp, et frekvent eksempel er ovddas: I dag får vi ingen adv cmp analyse: ovddasmanni ovddas+N+Cmp/SgNom+Cmp#manni+N+Sg+Nom substantivet ovddas (betyr forvarsel, symptom) og har nok ikke noe med noen (?) av sammensetningene vi finner i korpuset med ovddas som førsteledd.

Forslag: vi åpner for sammensetning med flere adverb.

albbas commented 7 years ago

Comment 11691

Date: 2016-11-17 10:43:30 +0100 From: Lene Antonsen <>

for vurderinger av ovddas, om det skulle finnes sammensetninger med substantivet ovddas: Jeg har sjekka inn fila sme/src/morphology/incoming/ovddas_cmp_korpus.txt med ord fra korpus med ovddas som førsteledd

albbas commented 7 years ago

Comment 11692

Date: 2016-11-17 11:07:25 +0100 From: Lene Antonsen <>

I samme sakskompleks:

I noun-stemsfila er det noen forledd som får taggen +N, uten å være substativ, f.eks. sisa+CmpN/SgN+N+Sem/Dummytag+Cmp/SgNom:sisa%> Rreal ; sis+CmpN/SgN+N+Sem/Dummytag+Cmp/SgNom:sis%> Rreal ;

Disse burde vel hatt +Adv ?

Og så er det noen som ikke har PoS i det hele tatt, f.eks. al+Cmp/Sh+Err/CmpSub:al Rreal ; mielde+Cmp/Sh:miel Rreal ; ! From Rnoun, to avoid miel = ShCmp

albbas commented 7 years ago

Comment 11694

Date: 2016-11-17 11:11:29 +0100 From: Lene Antonsen <>

Andre spørsmål: Flere adverber bør få dynamisk Cmp, et frekvent eksempel er ovddas: Andre frekvente eksempler er badje- (betydninga av substantivet badji stemmer ikke med de frekvente sammensetningene). Se eller Nickel/Sammallahti s. 663

albbas commented 7 years ago

Comment 11695

Date: 2016-11-17 11:14:39 +0100 From: Thomas Omma <>

great, we do that!

albbas commented 7 years ago

Comment 11696

Date: 2016-11-17 11:18:16 +0100 From: Lene Antonsen <>

(In reply to Thomas Omma from comment #4)

great, we do that!

Kunne du være litt mer spesifikk?

albbas commented 7 years ago

Comment 11698

Date: 2016-11-17 11:23:59 +0100 From: Thomas Omma <>

Forslag: vi åpner for sammensetning med flere adverb.

yes!

Disse burde vel hatt +Adv ?

jop!

Og så er det noen som ikke har PoS i det hele tatt, f.eks. al+Cmp/Sh+Err/CmpSub:al Rreal ; mielde+Cmp/Sh:miel Rreal ; ! From Rnoun, to avoid miel = ShCmp

we put pos!

albbas commented 7 years ago

Comment 11700

Date: 2016-11-17 21:13:47 +0100 From: Trond Trosterud <>

Dette er fint. Utfordringa er overgenerering, særleg med korte adverb. Men ja, dei som er både produktive og lange bør vi ha.