Open albbas opened 7 years ago
Date: 2016-12-05 21:43:57 +0100
From: Lene Antonsen <
Ord som birgendihte/birgendihtii/birgendihti har to forskjellige analyser
Leksikalisert: birgendihte birget+V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth
Dynamisk: birgendihte birget+V+IV+Der/NomAct dihte+Err/Orth+Adv
Det hadde vært naturlig å endre den dynamiske slik at de blir like den leksikaliserte?
birgendihte birget+V+IV+Actio+Gen dihte+Err/Orth+Adv
Date: 2016-12-05 21:52:48 +0100
From: Lene Antonsen <
Rettelse:
Begge analysene er dynamisk, men iflg Nickel/Sammallahti er nok Actio+Gen den riktige. Kanskje trenger vi bare en analyse?
Eksempel på ord med bare en analyse:
sme$ usme biggondihtii biggondihtii biggot+V+IV+Der/NomAct dihte+Err/Orth+Adv
Date: 2016-12-06 08:52:14 +0100
From: Thomas Omma <
norm is birgen dihte+Adv
Date: 2016-12-06 10:01:01 +0100
From: Trond Trosterud <
Det som er norm er særskriving (noko Jussi som kjent er skeptisk til). Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same måte.
Her er alle samd om at resultatet er ei eining, som er adverb, og som er i strid med norma når det er skrive som eitt ord.
At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og med også ein særskrivingstagg, altså slik:
+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.
Apropos korrekt, dette er det usme seier om akkurat den ordforma:
sániiguin sániiguin sátni+N+Err/Orth+Pl+Com sániiguin sátni+N+Pl+Com
Date: 2016-12-06 11:12:30 +0100
From: Trond Trosterud <
To merknader til denne merknaden:
Apropos korrekt, dette er det usme seier om akkurat den ordforma: sániiguin sátni+N+Err/Orth+Pl+Com
Date: 2016-12-06 11:14:26 +0100
From: Lene Antonsen <
+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.
Vi har allerede tagger som er i bruk:
+Err/SpaceCmp +Err/UnspaceCmp
Date: 2016-12-06 11:16:26 +0100
From: Lene Antonsen <
(In reply to Thomas Omma from comment #2)
norm is birgen dihte+Adv
Men denne taggen er for de leksikaliserte, og krever at hvert enkelt med samskriving tilfelle må leksikaliseres. De dynamiske med samskriving, får annen tagging.
Date: 2016-12-07 10:15:37 +0100
From: Linda Wiechetek <
(In reply to Trond Trosterud from comment #3)
Det som er norm er særskriving (noko Jussi som kjent er skeptisk til). Derimot er ikkje den grammatiske analysen gjenstand for normativitet på same måte.
Her er alle samd om at resultatet er ei eining, som er adverb, og som er i strid med norma når det er skrive som eitt ord.
At vi skal ha ei og ikkje to dynamiske analyser er klart, og sannsynlegvis Actio+Gen etter N&S. Det eg derimot lurer på her er om Err/Orth er den beste taggen, eller om vi treng ein eigen sammanskrivingstagg, og kanskje til og med også ein særskrivingstagg, altså slik:
+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.
Apropos korrekt, dette er det usme seier om akkurat den ordforma:
sániiguin sániiguin sátni+N+Err/Orth+Pl+Com sániiguin sátni+N+Pl+Com
Vi har en egen sammenskrivings- og særskrivingstag som vi bruker i slike tilfeller. Err/SpaceCmp (om det burde være et sammensatt ord) og Err/UnspaceCmp (om ordet ikke burde være sammensatt). Vi har endra en del Err/Orth til Err/UnspaceCmp men det er flere som burde endres.
Date: 2016-12-07 10:17:38 +0100
From: Linda Wiechetek <
(In reply to Lene Antonsen from comment #5)
+Err/Fused = for "birgendihte", som skal vere "birgen dihte" +Err/Sep = for hmm, viss vi registrerer slike feil, kanskje vi ikkje gjer det, t.d. "sánii guin" for korrekt "sániiguin", kva veit eg.
Vi har allerede tagger som er i bruk:
+Err/SpaceCmp +Err/UnspaceCmp
yep sånn er det, så ikkje svaret ditt før!
Date: 2017-03-15 14:00:35 +0100
From: Lene Antonsen <
Vi har nå tre forskjellige analyser for -ndihte,
birgendihte
birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth
birget+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv
birgen dihte+Err/UnspaceCmp+Adv
De ikke leksikaliserte får denne analysen:
biggondihte
biggot+VV+IV+Der/NomAct dihte+Err/UnspaceCmp+Adv
Når jeg finleser Nickel/Sammallahti s 296, så står det at når det er objekt knytta til aktioformen, så oppfattes den som Actio+Gen. Med andre ord så skal vi da ha både Der/NomAct og Actio Gen og så disambiguere bort den ene. biggot er IV og kan ikke ta objekt, så slik er det ok at denne bare får +Der/NomAct
+Der/NomAc og +Actio+Gen er dynamiske analyser, mens birgen dihte+Err/UnspaceCmp+Adv er leksikalisert. Ideelt sett burde de morfologiske taggene være like her?
Det burde være mulig, ved å endre fra: birgen% dihte:birgen DIHTE ;
til: birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ; Er det noen grunner til at vi ikke burde gjøre dette?
Jeg foreslår å endre +Err-taggen i denne birget+VV+IV+Actio+Gen+Der/Adv+Adv+Err/Orth <=== +Err/UnspaceCmp
Date: 2019-10-07 09:25:23 +0200
From: Sjur Nørstebø Moshagen <
Thomas, du var litt for rask til å lata att denne. Vi får framleis ein analyse ulik dei andre leksikaliserte:
$ echo birgendihte | hfst-lookup -q src/analyser-disamb-gt-desc.hfstol birgendihte birget+Ex/V+IV+Actio+Gen+Der/Adv+Adv+Err/Orth birgendihte birget+Ex/V+IV+Der/NomAct+N dihte+Err/MissingSpace+Adv birgendihte birget+Ex/V+IV+Der/NomAct+N+Sem/Act+Cmp/SgNom+Cmp#dihtti+N+Sem/Ani+Sg+Gen+Allegro birgendihte birgen dihte+Err/MissingSpace+Adv <=== denne
Eg gjenopnar.
Date: 2019-10-07 09:41:04 +0200
From: Thomas Omma <
birgen% dihte:birgen DIHTE ;
^ son that one is unΩanted?
and everµ other like that too:
bissehan% dihte:bissehan DIHTE ; buhtadan% dihte:buhtadan DIHTE ; dieđihan% dihte:dieđihan DIHTE ;
etc
Date: 2019-10-07 09:50:17 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Thomas Omma from comment #11)
birgen% dihte:birgen DIHTE ;
^ son that one is unΩanted?
and everµ other like that too:
bissehan% dihte:bissehan DIHTE ; buhtadan% dihte:buhtadan DIHTE ; dieđihan% dihte:dieđihan DIHTE ;
Sjå kommentaren til Lene (#c9). Eg forstår henne slik at oppføringa for den fyrste bør vera:
birgen+V+IV+Der/NomAct% dihte:birgen DIHTE ;
dvs at vi legg inn analysen til birgen manuelt i lexc, slik at vi får same analyse av alle variantane.
Men om det betyr at 'birgen dihte' då får ei anna analyse, så er eg usikker på kva vi eigentleg vil, og kva vi vil ha i ulike samanhangar. Med tokenise får vi:
$ echo birgendihte | hfst-tokenise -g tools/tokenisers/tokeniser-gramcheck-gt-desc.pmhfst
"
Her ser eg ingen grunn til å endra på Adv-analysen av den leksikaliserte forma, i og med MWE-analysen. Kva seier de andre?
(eg fjernar Ciprian og Sandra frå CC-lista)
Date: 2020-04-20 12:00:30 +0200
From: Linda Wiechetek <
Det ser ut til å være fiksa for det meste:
"
"
Bare noe rart med denne:
"
Vet dokker ka som er problemet her?
Date: 2020-04-20 12:21:24 +0200
From: Lene Antonsen <
dihte er Err/Orth, da kan den kanskje ikke foreslås?
This issue was created automatically with bugzilla2github
Bugzilla Bug 2289
Date: 2016-12-05T21:43:57+01:00 From: Lene Antonsen <>
To: Thomas Omma <>
CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud
Last updated: 2020-04-20T12:21:24+02:00