giellalt / lang-sma

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Southern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 3 forks source link

sma: « og » får ikke riktig analyse (Bugzilla Bug 2468) #48

Closed albbas closed 6 years ago

albbas commented 6 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2468

Date: 2018-05-07T08:48:23+02:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: lene.antonsen, maja.l.kappfjell, sjur.n.moshagen, thomas.omma, trond.trosterud, @unhammer@fsfe.org

Last updated: 2018-10-09T00:09:38+02:00

albbas commented 6 years ago

Comment 12778

Date: 2018-05-07 08:48:23 +0200 From: Lene Antonsen <>

Analysen fungerer i sme, men ikke i sma. Jeg klarer ikke å finne ut hvorfor.

echo Karijuse: «Mij dellie?» hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sma/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst "" "Karijuse" N Prop Sem/Ani Attr "Karijuse" N Prop Sem/Ani Sg Nom "<:>" ":" CLB "<>" "«" PUNCT LEFT "»" PUNCT RIGHT

"<>" "«" PUNCT LEFT "»" PUNCT RIGHT :« "" "mij" Pron Interr Sg Nom "mij" Pron Rel Sg Nom : "" "dellie" Adv "<?>" "?" CLB "<>" "«" PUNCT LEFT "»" PUNCT RIGHT :» "<>" "«" PUNCT LEFT "»" PUNCT RIGHT :\n "<>" "«" PUNCT LEFT "»" PUNCT RIGHT

Sammenlikning: Hvis jeg analyserer samme setninga med sme, får jeg riktig analyse.

echo Karijuse: «Mij dellie?» hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst "" "Karijuse" ? "<:>" ":" CLB

"<«>" "«" PUNCT LEFT "" "Mij" ? : "" "dellie" ? "<?>" "?" CLB "<»>" "»" PUNCT RIGHT :\n

albbas commented 6 years ago

Comment 12944

Date: 2018-08-28 17:19:08 +0200 From: Sjur Nørstebø Moshagen <>

No er det betre, sjølv om det ikkje er heilt bra enno:

"" "Karijuse" N Prop Sem/Ani Attr "Karijuse" N Prop Sem/Ani Sg Nom "<:>" ":" CLB : « "" "mij" Pron Indef Sg Nom "mij" Pron Interr Sg Nom "mij" Pron Rel Sg Nom : "" "dellie" Adv "<?>" "?" CLB "<»>" "»" PUNCT RIGHT :\n

albbas commented 6 years ago

Comment 12945

Date: 2018-08-28 17:32:46 +0200 From: Sjur Nørstebø Moshagen <>

Kevin - eg får ikkje « til å fungera i sma, sjølv om den same koden fungerer i sme, jamfør desse to døma:

$ echo Karijuse: «Mij dellie?» hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst "" "Karijuse" N Prop Sem/Ani Attr "Karijuse" N Prop Sem/Ani Sg Nom "<:>" ":" CLB : « "" "mij" Pron Indef Sg Nom "mij" Pron Interr Sg Nom "mij" Pron Rel Sg Nom

"" "dellie" Adv "<?>" "?" CLB "<»>" "»" PUNCT RIGHT :\n

$ echo Karijuse: « hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst "" "Karijuse" N Prop Sem/Ani Attr "Karijuse" N Prop Sem/Ani Sg Nom "<:>" ":" CLB

"<«>" "«" PUNCT LEFT :\n

Skilnaden er altså berre at « får tekst rett etter seg i det fyrste dømet, og ingen ting (dvs lineskift) i det andre. I det fyrste dømet blir « skjerma som noko som ikkje skal analyserast, i det andre får det ein vanleg (og venta analyse). pmskripta er etter det eg kan sjå like, det same er den relevante lexc-koden etter det eg kan sjå.

albbas commented 6 years ago

Comment 12952

Date: 2018-08-29 12:47:22 +0200 From: @unhammer@fsfe.org

Dette verkar veldig kjent … Blir «/» brukt som midlertidige symbol mellom lexc og twol til å markera …eittelleranna…?

albbas commented 6 years ago

Comment 12953

Date: 2018-08-29 13:01:05 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Kevin Brubeck Unhammer from comment #3)

Dette verkar veldig kjent … Blir «/» brukt som midlertidige symbol mellom lexc og twol til å markera …eittelleranna…?

Jepp, det blir dei. I alle språk blir « og » brukt internt for å markera morfemgrense for derivasjonar: « for prefiksderivasjon, og » for suffiksderivasjon. Det er ikkje alle språk som nyttar desse i praksis, og for samiske språk er det ingen prefiksderivasjon (eller i det heile prefiksmorfologi).

albbas commented 6 years ago

Comment 12955

Date: 2018-08-31 09:29:48 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Sjur Nørstebø Moshagen from comment #4)

(In reply to Kevin Brubeck Unhammer from comment #3)

Dette verkar veldig kjent … Blir «/» brukt som midlertidige symbol mellom lexc og twol til å markera …eittelleranna…?

Jepp, det blir dei. I alle språk blir « og » brukt internt for å markera morfemgrense for derivasjonar: « for prefiksderivasjon, og » for suffiksderivasjon. Det er ikkje alle språk som nyttar desse i praksis, og for samiske språk er det ingen prefiksderivasjon (eller i det heile prefiksmorfologi).

Eg prøvde å så av alignment i hfst-lexc (som i dette tilfellet truleg vil føra til splitting av symbolpar, fordi symbola ikkje er like på kvar side), men det hjelpte ikkje:

hfst-traverse src/analyser-disamb-gt-desc.hfst traverse> « On path `«:@_EPSILONSYMBOL@ ' are continuations: @_EPSILONSYMBOL@ «

Dvs resultatet er det same både med og utan symbolpar-synkronisering.

Eg ser to moglege løysingar på dette:

1) hfst-tokenise blir betre på tokenisering av slike A:0 0:A sekvensar 2) vi ber hfst-gjengen om å laga eit nytt verkty hfst-realign som endrar sekvensar av typen A:0 0:A til A:A

2) vil ha ein verdi uavhengig av hfst-tokenise, fordi det vil gjera fst-ane litt mindre og raskare (ikkje mykje, reknar eg med, men likevel... :-)

albbas commented 6 years ago

Comment 12956

Date: 2018-08-31 11:36:08 +0200 From: @unhammer@fsfe.org

(In reply to Sjur Nørstebø Moshagen from comment #5)

Eg ser to moglege løysingar på dette:

1) hfst-tokenise blir betre på tokenisering av slike A:0 0:A sekvensar 2) vi ber hfst-gjengen om å laga eit nytt verkty hfst-realign som endrar sekvensar av typen A:0 0:A til A:A

2) vil ha ein verdi uavhengig av hfst-tokenise, fordi det vil gjera fst-ane litt mindre og raskare (ikkje mykje, reknar eg med, men likevel... :-)

Ein hfst-realign hadde vore veldig greitt å ha, ja.

Eg trur hfst-tokenise ville fått til problemet viss me fekk lov til å definera blankteikn som [ Punct:? 0:? ], men det får kompileringa til å henga opp: https://github.com/hfst/hfst/issues/399

albbas commented 6 years ago

Comment 12957

Date: 2018-09-03 16:35:34 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Kevin Brubeck Unhammer from comment #6)

Ein hfst-realign hadde vore veldig greitt å ha, ja.

Sjå https://github.com/hfst/hfst/issues/400.

albbas commented 6 years ago

Comment 13047

Date: 2018-10-09 00:09:38 +0200 From: Sjur Nørstebø Moshagen <>

Denne er no fiksa:

$ echo Karijuse: «Mij dellie?» hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst "" "Karijuse" N Prop Sem/Ani Attr "Karijuse" N Prop Sem/Ani Sg Nom "<:>" ":" CLB

"<«>" "«" PUNCT LEFT "" "mij" Pron Indef Sg Nom "mij" Pron Interr Sg Nom "mij" Pron Rel Sg Nom : "" "dellie" Adv "<?>" "?" CLB "<»>" "»" PUNCT RIGHT :\n