giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

fst doesn't analyze "§51" and "6,8x5,5" #37

Open lynnda-hill opened 2 years ago

lynnda-hill commented 2 years ago

I have noticed a couple of formula our fsts seem to have trouble analyzing. I used tools/grammarcheckers/modes/trace-smegramrelease-dev.mode. I'm wondering if we should do something about it or if there is a solution for that already:

§51
5x55

Below the example sentences:

Juovlamánu 14. b. 1951 bivdolága §51 viiddiduvvui eanaeaiggáda vuoigatvuohta ráfáiduhtton sajiin maiddái siskkildit iežas adnui hávdavarrása, hálkka, čohkánjunhálkka ja bovttáža moniide.

Bissu mainna eanáš báhččit gilvalit, lea «Sauer» 6, 5x55 kaliber.

"<§51>"
        "§51" ? &typo #6->6 ADD:10123:uncorrected-typos
typo
snomos commented 2 years ago

Det ser ut til at §55 blir filtrert ut i kompileringa, av ein eller annan grunn:

echo "§51" | hfst-tokenise -g tools/tokenisers/tokeniser-gramcheck-gt-desc.pmhfst 
"<§51>"
    "§51" ?
:\n
echo "§51" | hfst-lookup -q src/analyser-gt-desc.hfstol 
§51 §51+Num 0,000000

echo "§51" | hfst-lookup -q src/analyser-gramcheck-gt-desc.hfstol 
§51 §51+?   inf

Eg skal sjå på det.

Når det gjeld 5x55 så har slike uttrykk aldri vorte analyserte, så det må leggjast til. Eg skal sjå på det òg.

snomos commented 2 years ago

Problemet med §51 er at han er tagga +Use/-Spell:

echo '§51' | hfst-flookup -q src/generator-raw-gt-desc.hfst 
§51 +Use/-Spell+Use/Circ§51+Num+Sem/ID  0,000000

Og alle slike blir fjerna frå gramsjekk-analysatoren.

lynnda-hill commented 2 years ago

I found another example that does not get an analysis "8x5":

Girku lei dušše 6, 8x5, 5 mehtera stuoris ja gili olbmot eai čahkan buohkat sisa.

snomos commented 2 years ago

Og alle slike blir fjerna frå gramsjekk-analysatoren.

Dvs. Use/-Spell-tagga ord. Med tanke på det vi sa på møtet om denne taggen førre veka, så kanskje ikkje vi skal fjerna dei frå grammatikkontrollanalysatoren ?

Når det gjeld §51 så er den rette taggen kanskje Err/Orth, eg meiner det skal vera mellomrom der.

Kva seier de, @lynnda-hill og @duomdaamaendra ?

duomdaamaendra commented 2 years ago

Nej, use/-spell kan vel inte fjernes...

  1. mar. 2022 kl. 04:47 skrev Sjur N Moshagen @.**@.>>:

    Og alle slike blir fjerna frå gramsjekk-analysatoren.

    Dvs. Use/-Spell-tagga ord. Med tanke på det vi sa på møtet om denne taggen førre veka, så kanskje ikkje vi skal fjerna dei frå grammatikkontrollanalysatoren ?

    Når det gjeld §51 så er den rette taggen kanskje Err/Orth, eg meiner det skal vera mellomrom der.

    Kva seier de, @lynnda-hillhttps://github.com/lynnda-hill og @duomdaamaendrahttps://github.com/duomdaamaendra ?

snomos commented 2 years ago

Kommentar frå @leneantonsen (i Zulip), limt inn her for å få han inn i diskusjonen på GitHub:

6,8x5,5. betyr 6,8 ganger 5,5 dvs at det 8x5 ikke skal analyseres sammen. Er det mellomrom på feil sted?

snomos commented 2 years ago

Nej, use/-spell kan vel inte fjernes...

Slik det er no er det eit problem at alle Use/-Spell-ord blir fjerna frå analysatoren i grammatikkontrollen. Så du er samd, og meiner at dei ikkje bør bli det, at dei bør vera ein del av analysatoren i grammatikkontrollen?

Vi hadde eit møte om m.a. Use/-Spell førre veka, og Lene går gjennom bruken av han i nordsamisk no, Inga gjer det same med lulesamisk. Det er uavhengig av diskusjonen her, men kan vera bra å ha i mente 🙂

duomdaamaendra commented 2 years ago

Ja, de bør vare ein del av analysatorn

  1. mar. 2022 kl. 11:38 skrev Sjur N Moshagen @.**@.>>:

Nej, use/-spell kan vel inte fjernes...

Slik det er no er det eit problem at alle Use/-Spell-ord blir fjerna frå analysatoren i grammatikkontrollen. Så du er samd, og meiner at dei ikkje bør bli det, at dei bør vera ein del av analysatoren i grammatikkontrollen?

Vi hadde eit møte om m.a. Use/-Spell førre veka, og Lene går gjennom bruken av han i nordsamisk no, Inga gjer det same med lulesamisk. Det er uavhengig av diskusjonen her, men kan vera bra å ha i mente 🙂

snomos commented 2 years ago

Ja, de bør vare ein del av analysatorn

👍

snomos commented 2 years ago

Når det gjeld §51 så er den rette taggen kanskje Err/Orth, eg meiner det skal vera mellomrom der.

Kva seier de, @lynnda-hill og @duomdaamaendra ?

Det skal vera mellomrom, jf 1.12.5 i Čállinrávagirji (t.d. her). Men aller helst bør det skrivast 51. § på samisk, i fylgje den same teksten.