giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

No analysis for "Sámi" #24

Closed carges closed 11 months ago

carges commented 3 years ago

I get the following, both alone and within a sentence:

echo 'Sámi'| hfst-tokenise --print-all --giella-cg --no-weights --unique tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst | vislcg3 --grammar tools/tokenisers/mwe-dis.bin | cg-mwesplit | vislcg3 --grammar src/cg3/disambiguator.bin | vislcg3 --grammar src/cg3/korp.bin | vislcg3 --grammar src/cg3/dependency.bin
:Sámi\n
Trondtr commented 3 years ago

Eg limte 'Sámi'

inn i ein hexeditor og såg dermet at det i starten og slutten av ordet (altså mellom ' og S, mellom i og ', låg unicodeteiiknet U+FEFF. Det er den som hindrar analyse (pipeline etter hfst-tokenise -kommandoen er irrelevant).

Svaret på dette ser ut til å inkludere U0FEFF (Zero-width_no-break_space) i preprocess-fila.

Trondtr commented 3 years ago

Diskusjonen her er no splitta i ein kommentar: https://github.com/giellalt/lang-sme/commit/93e7282dcda0d31ef6c7e5dc2ba6235bd28bc2f8

Men eg skriv her også for å kommentere sjølve analysen.

Eg har altså tentativt lagt FEFF til i tools/tokenisers/tokeniser-disamb-gt-desc.pmscript, men ut over det ikkje endra sme-fst-koden.

Analysen fungerer dermed som han skal:

echo 'Sámi'| hfst-tokenise --print-all --giella-cg --no-weights --unique \
tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst | \
vislcg3 --grammar tools/tokenisers/mwe-dis.bin | \
cg-mwesplit | \
vislcg3 --grammar src/cg3/disambiguator.bin | \
vislcg3 --grammar src/cg3/korp.bin | \
vislcg3 --grammar src/cg3/dependency.bin
"<Sámi>"
    "Sámi" ? @X #1->0
:\n

Dvs. strengen FEFFSámiFEFF får ? og ikkje

:Sámi

som han fekk før.

Det som kanskje ikkje er så bra er at det kan vere sideeffektar (som Sjur kanskje viser til?), så denne saka er ikkje løyst.

snomos commented 11 months ago

Slik det er gjort no verkar det bra, denne saka er løyst.