giellalt / lang-sma

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Southern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 3 forks source link

Dårlege forslag i stavekontrollen #1

Open snomos opened 4 years ago

snomos commented 4 years ago

Døme på tekst som gjev nokre underlege forslag frå stavekontrollen på mobiltelefon:

Daate

IMG_6239

Daate er rett skrive, fyrste forslag Daae er eit ikkje-eksisterande ord, det andre forslaget Baate er òg eit ikkje-eksisterande ord.

lea

IMG_6240

lea er korrekt, begge forslaga (leah, leam) er rimelege forslag, men feil i konteksten.

mov

IMG_6241

mov er rett, forslaga (dov, sov) er rimelege forslag.

tjaelime

IMG_6242

tjaelime er feil, fyrste forslag tjaelije er irrelevant, andre forslag tjaeleme er rett og burde koma på fyrste plass.

voekie

IMG_6243

voekie er feil, fyrste forslag vuekie er rett, andre forslag vuekine er ei anna form av same ord, heilt ok som forslag

gukte

IMG_6245

gukte er feil, fyrste forslag guktie er rett, andre forslag guhte er eit eksisterande ord

manne

IMG_6246

manne er rett skrive. Fyrste forslag monne er eit ukjent ord, andre forslag mennie eksisterer men er irrelevant.

snomos commented 4 years ago

Eg trur at noko av det beste vi kan gjera er å gje ei tilbakemelding om at det ein har skrive er korrekt, dvs teksten i det venstre feltet - raud bakgrunn om det ikkje er eit kjent ord (og dermed kanskje feilskrive), og grøn bakgrunn dersom det er korrekt?

Slik det er no, så er forslaga frå stavekontrollen slik:

echo Daate | divvunspell -S -z tools/spellcheckers/sma.zhfst 
Reading from stdin...
Input: Daate        [CORRECT]
Daate       17.182617
Daae        32.49508
Baate       37.49508
Gaate       37.49508
Maate       37.49508
Raate       37.49508
Aate        40.802734
Daase       45.515625
Daakte      46.208008
Daale       47.49508

Dvs det korrekte Daate kjem som fyrste forslag. Men i og med at det er likt med det ein har skrive, kjem det ikkje opp som separat forslag - det gjev ikkje meining å ha same ord to gonger på lista. Dermed treng vi ein annan mekanisme for å visa at det ein har skrive er rett.

Andre forslag (fyrste på telefonen) er Daae. Det er eit etternamn, og dukkar opp fordi det ein har skrive er òg skrive med stor det - det er fyrste ordet i setninga. Eit uheldig forslag, namn er problematiske.

snomos commented 4 years ago

Dvs det korrekte Daate kjem som fyrste forslag. Men i og med at det er likt med det ein har skrive, kjem det ikkje opp som separat forslag - det gjev ikkje meining å ha same ord to gonger på lista. Dermed treng vi ein annan mekanisme for å visa at det ein har skrive er rett.

Eg har no meldt ein feil her: https://github.com/divvun/giellakbd-ios/issues/171

snomos commented 10 months ago

Det har ei stund no vore slik at korrekt skrivne ord blir markert med feit stil i feltet til venstre, så det burde hjelpa.

Eg har lagt inn ei endring for å lyfta tjaeleme som forslag til tjaelime (i https://github.com/giellalt/lang-sma/commit/b3ce0d5cd002e4d89ade3cd51f88a284ce8795fa). Resten av døma har rett forslag på fyrste plass, dvs i midten.

Vi har ikkje enno teknologi til å ta omsyn til konteksten, det kan koma i framtida.

Forbetringane i stavekontrollen blir tilgjengelege i neste oppdatering vi legg ut.