giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

analysen av birgendihte m.flere ( #257

Open albbas opened 7 years ago

albbas commented 7 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2289

Date: 2016-12-05T21:43:57+01:00 From: Lene Antonsen <> To: Thomas Omma <> CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud

Last updated: 2020-04-20T12:21:24+02:00

albbas commented 7 years ago

Comment 11771

Date: 2016-12-05 21:43:57 +0100 From: Lene Antonsen <>

Ord som birgendihte/birgendihtii/birgendihti har to forskjellige analyser

Leksikalisert: birgendihte birget+V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth

Dynamisk: birgendihte birget+V+IV+Der/NomAct dihte+Err/Orth+Adv

Det hadde vært naturlig å endre den dynamiske slik at de blir like den leksikaliserte?

birgendihte birget+V+IV+Actio+Gen dihte+Err/Orth+Adv

albbas commented 7 years ago

Comment 11772

Date: 2016-12-05 21:52:48 +0100 From: Lene Antonsen <>

Rettelse:

Begge analysene er dynamisk, men iflg Nickel/Sammallahti er nok Actio+Gen den riktige. Kanskje trenger vi bare en analyse?

Eksempel på ord med bare en analyse:

sme$ usme biggondihtii biggondihtii biggot+V+IV+Der/NomAct dihte+Err/Orth+Adv

albbas commented 7 years ago

Comment 11773

Date: 2016-12-06 08:52:14 +0100 From: Thomas Omma <>

norm is birgen dihte+Adv

albbas commented 7 years ago

Comment 11780

Date: 2016-12-06 10:01:01 +0100 From: Trond Trosterud <>

Det som er norm er særskriving (noko Jussi som kjent er skeptisk til). Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same måte.

Her er alle samd om at resultatet er ei eining, som er adverb, og som er i strid med norma når det er skrive som eitt ord.

At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og med også ein særskrivingstagg, altså slik:

+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.

Apropos korrekt, dette er det usme seier om akkurat den ordforma:

sániiguin sániiguin sátni+N+Err/Orth+Pl+Com sániiguin sátni+N+Pl+Com

albbas commented 7 years ago

Comment 11781

Date: 2016-12-06 11:12:30 +0100 From: Trond Trosterud <>

To merknader til denne merknaden:

  1. den har ingenting med denne bugen å gjere, eg la den der fordi eg vart forundra då eg analyserte ordet eg brukte som døme
  2. eg burde ikkje ha vorte forundra: dette er noko vi gjer (over-tilordnar Err/Orth for alla ord som kunne ha hatt diftongforenkling, og deretter fjernar dei frå CG). Sjå dermed bort frå den merknaden.

Apropos korrekt, dette er det usme seier om akkurat den ordforma: sániiguin sátni+N+Err/Orth+Pl+Com

albbas commented 7 years ago

Comment 11782

Date: 2016-12-06 11:14:26 +0100 From: Lene Antonsen <>

+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.

Vi har allerede tagger som er i bruk:

+Err/SpaceCmp +Err/UnspaceCmp

albbas commented 7 years ago

Comment 11783

Date: 2016-12-06 11:16:26 +0100 From: Lene Antonsen <>

(In reply to Thomas Omma from comment #2)

norm is birgen dihte+Adv

Men denne taggen er for de leksikaliserte, og krever at hvert enkelt med samskriving tilfelle må leksikaliseres. De dynamiske med samskriving, får annen tagging.

albbas commented 7 years ago

Comment 11793

Date: 2016-12-07 10:15:37 +0100 From: Linda Wiechetek <>

(In reply to Trond Trosterud from comment #3)

Det som er norm er særskriving (noko Jussi som kjent er skeptisk til). Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same måte.

Her er alle samd om at resultatet er ei eining, som er adverb, og som er i strid med norma når det er skrive som eitt ord.

At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og med også ein særskrivingstagg, altså slik:

+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.

Apropos korrekt, dette er det usme seier om akkurat den ordforma:

sániiguin sániiguin sátni+N+Err/Orth+Pl+Com sániiguin sátni+N+Pl+Com

Vi har en egen sammenskrivings- og særskrivingstag som vi bruker i slike tilfeller. Err/SpaceCmp (om det burde være et sammensatt ord) og Err/UnspaceCmp (om ordet ikke burde være sammensatt). Vi har endra en del Err/Orth til Err/UnspaceCmp men det er flere som burde endres.

albbas commented 7 years ago

Comment 11794

Date: 2016-12-07 10:17:38 +0100 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment #5)

+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.

Vi har allerede tagger som er i bruk:

+Err/SpaceCmp +Err/UnspaceCmp

yep sånn er det, så ikkje svaret ditt før!

albbas commented 7 years ago

Comment 12206

Date: 2017-03-15 14:00:35 +0100 From: Lene Antonsen <>

Vi har nå tre forskjellige analyser for -ndihte,

birgendihte birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth birget+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv
birgen dihte+Err/UnspaceCmp+Adv

De ikke leksikaliserte får denne analysen: biggondihte
biggot+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv

Når jeg finleser Nickel/Sammallahti s 296, så står det at når det er objekt knytta til aktioformen, så oppfattes den som Actio+Gen. Med andre ord så skal vi da ha både Der/NomAct og Actio Gen og så disambiguere bort den ene. biggot er IV og kan ikke ta objekt, så slik er det ok at denne bare får +Der/NomAct

+Der/NomAc og +Actio+Gen er dynamiske analyser, mens birgen dihte+Err/UnspaceCmp+Adv er leksikalisert. Ideelt sett burde de morfologiske taggene være like her?

Det burde være mulig, ved å endre fra: birgen% dihte:birgen DIHTE ;

til: birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ; Er det noen grunner til at vi ikke burde gjøre dette?

Jeg foreslår å endre +Err-taggen i denne birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth <=== +Err/UnspaceCmp

albbas commented 5 years ago

Comment 13717

Date: 2019-10-07 09:25:23 +0200 From: Sjur Nørstebø Moshagen <>

Thomas, du var litt for rask til å lata att denne. Vi får framleis ein analyse ulik dei andre leksikaliserte:

$ echo birgendihte | hfst-lookup -q src/analyser-disamb-gt-desc.hfstol birgendihte birget+Ex/V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth birgendihte birget+Ex/V+IV+Der/NomAct+N dihte+Err/MissingSpace+Adv birgendihte birget+Ex/V+IV+Der/NomAct+N+Sem/Act+Cmp/SgNom+Cmp#dihtti+N+Sem/Ani+Sg+Gen+Allegro birgendihte birgen dihte+Err/MissingSpace+Adv <=== denne

Eg gjenopnar.

albbas commented 5 years ago

Comment 13720

Date: 2019-10-07 09:41:04 +0200 From: Thomas Omma <>

birgen% dihte:birgen DIHTE ;

^ son that one is unΩanted?

and everµ other like that too:

bissehan% dihte:bissehan DIHTE ; buhtadan% dihte:buhtadan DIHTE ; dieđihan% dihte:dieđihan DIHTE ;

etc

albbas commented 5 years ago

Comment 13722

Date: 2019-10-07 09:50:17 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Thomas Omma from comment #11)

birgen% dihte:birgen DIHTE ;

^ son that one is unΩanted?

and everµ other like that too:

bissehan% dihte:bissehan DIHTE ; buhtadan% dihte:buhtadan DIHTE ; dieđihan% dihte:dieđihan DIHTE ;

Sjå kommentaren til Lene (#c9). Eg forstår henne slik at oppføringa for den fyrste bør vera:

birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ;

dvs at vi legg inn analysen til birgen manuelt i lexc, slik at vi får same analyse av alle variantane.

Men om det betyr at 'birgen dihte' då får ei anna analyse, så er eg usikker på kva vi eigentleg vil, og kva vi vil ha i ulike samanhangar. Med tokenise får vi:

$ echo birgendihte | hfst-tokenise -g tools/tokenisers/tokeniser-gramcheck-gt-desc.pmhfst "" "birgen dihte" Err/MissingSpace Adv "birget" Ex/V IV Actio Gen Der/Adv Adv Err/Orth "birget" Ex/V IV Der/NomAct N" dihte" Err/MissingSpace Adv :\n

Her ser eg ingen grunn til å endra på Adv-analysen av den leksikaliserte forma, i og med MWE-analysen. Kva seier de andre?

(eg fjernar Ciprian og Sandra frå CC-lista)

albbas commented 4 years ago

Comment 13914

Date: 2020-04-20 12:00:30 +0200 From: Linda Wiechetek <>

Det ser ut til å være fiksa for det meste:

"" "birgen dihte" Err/MissingSpace Adv &msyn-unspace-compound ADD:3830:compound ADD:3830:compound msyn-unspace-compound "birgen dihte" Adv &SUGGEST ADD:3830:compound ADD:3830:compound COPY:3834:compound birgen dihte+Adv birgen dihtii,birgen dihte

"" "birgen dihte" Err/MissingSpace Adv &msyn-unspace-compound ADD:3830:compound msyn-unspace-compound "birgen dihte" Adv &SUGGEST ADD:3830:compound COPY:3834:compound birgen dihte+Adv birgen dihtii,birgen dihte "birget" Ex/V IV Der/NomAct N" dihte" Err/MissingSpace Adv &msyn-unspace-compound ADD:3830:compound msyn-unspace-compound "birget" Ex/V IV Der/NomAct N" dihte" Adv &SUGGEST ADD:3830:compound COPY:3834:compound birget+Ex/V+IV+Der/NomAct+N"+dihte"+Adv ? ; "birget" Ex/V IV Actio Gen Der/Adv Adv Err/Orth REMOVE:8342:r1212 : "" "birgen dihte" Adv "birget" Ex/V IV Der/NomAct N" dihte" Adv

Bare noe rart med denne:

"" "birget" Ex/V IV Der/NomAct N" dihte" Adv &SUGGEST ADD:3830:compound COPY:3834:compound birget+Ex/V+IV+Der/NomAct+N"+dihte"+Adv ? ; "birget" Ex/V IV Der/NomAct N" dihte" Err/Orth Err/MissingSpace Adv &msyn-unspace-compound ADD:3830:compound REMOVE:6396:SuperfluousErrTags

Vet dokker ka som er problemet her?

albbas commented 4 years ago

Comment 13915

Date: 2020-04-20 12:21:24 +0200 From: Lene Antonsen <>

dihte er Err/Orth, da kan den kanskje ikke foreslås?