Closed carges closed 11 months ago
Eg limte 'Sámi'
inn i ein hexeditor og såg dermet at det i starten og slutten av ordet (altså mellom ' og S, mellom i og ', låg unicodeteiiknet U+FEFF. Det er den som hindrar analyse (pipeline etter hfst-tokenise -kommandoen er irrelevant).
Svaret på dette ser ut til å inkludere U0FEFF (Zero-width_no-break_space) i preprocess-fila.
Diskusjonen her er no splitta i ein kommentar: https://github.com/giellalt/lang-sme/commit/93e7282dcda0d31ef6c7e5dc2ba6235bd28bc2f8
Men eg skriv her også for å kommentere sjølve analysen.
Eg har altså tentativt lagt FEFF til i tools/tokenisers/tokeniser-disamb-gt-desc.pmscript
, men ut over det ikkje endra sme-fst-koden.
Analysen fungerer dermed som han skal:
echo 'Sámi'| hfst-tokenise --print-all --giella-cg --no-weights --unique \
tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst | \
vislcg3 --grammar tools/tokenisers/mwe-dis.bin | \
cg-mwesplit | \
vislcg3 --grammar src/cg3/disambiguator.bin | \
vislcg3 --grammar src/cg3/korp.bin | \
vislcg3 --grammar src/cg3/dependency.bin
"<Sámi>"
"Sámi" ? @X #1->0
:\n
Dvs. strengen FEFFSámiFEFF
får ?
og ikkje
:Sámi
som han fekk før.
Det som kanskje ikkje er så bra er at det kan vere sideeffektar (som Sjur kanskje viser til?), så denne saka er ikkje løyst.
Slik det er gjort no verkar det bra, denne saka er løyst.
I get the following, both alone and within a sentence: