giellatekno / neahttadigisanit

Saami dictionary webapp
Other
2 stars 2 forks source link

Feil rekkefølge på søkeresultater #5

Closed Phaqui closed 1 year ago

Phaqui commented 1 year ago

eks: på søkeordet "viessu", skal "viessu" komme før "viessat", fordi det er direkte treff på lemma.

Phaqui commented 1 year ago

Lokalt er rekkefølgen akkurat slik vi vil ha den.

Phaqui commented 1 year ago

Det kan se ut som at "pyhfst" vs "hfst" endrer rekkefølgen på resultatene. "pyhfst" leverer resultatene tilbake slik de kommer fra analysen, som ikke nødvendigvis er slik at direkte treff sorteres først:

anders@debian:~/giellalt/lang-sme/src$ hfst-lookup analyser-dict-gt-desc.hfstol
> viessu
viessu  viessat+V+IV+Imprt+Du1  0,000000
viessu  viessut+V+IV+Imprt+Du1  0,000000
viessu  viessut+V+IV+Imprt+Du2  0,000000
viessu  viessut+V+IV+Ind+Prs+Sg3        0,000000
viessu  viessut+V+IV+PrsPrc     0,000000
viessu  viessu+N+Sg+Nom 0,000000

> báikegoddi
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddit+V+TV+Der/NomAg+N+Sg+Acc    0,000000
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddit+V+TV+Der/NomAg+N+Sg+Gen    0,000000
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddit+V+TV+Der/NomAg+N+Sg+Nom    0,000000
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddit+V+TV+PrsPrc        0,000000
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddi+N+NomAg+Sg+Acc      0,000000
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddi+N+NomAg+Sg+Gen      0,000000
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddi+N+NomAg+Sg+Nom      0,000000
báikegoddi      báiki+N+Cmp/SgNom+Cmp#goddi+N+Sg+Nom    0,000000
báikegoddi      báikegoddi+N+Sg+Nom     0,000000

Rekkefølgen på de eksemplene er i bunn og grunn lik rekkefølgen slik man ser søkeresultatet på NDS.

Phaqui commented 1 year ago

Som ei midlertidig løsning endra jeg tilbake til "hfst" i configs/sanit.config.yaml:55 (og den for "SoMe"). Rekkefølgen er nå riktig, men man merker faktisk at oppslag tar noe lengre tid.

trondtynnol commented 1 year ago

Aha, så vi har vore avhengige av kva rekkjefylgje hfst returnerer lemma i. Det er vel i grunn ikkje noko å stole på. Godt du fann årsaka, Anders.

Phaqui commented 1 year ago

Da skal denne være fikset fra og med commit 648466df. Lar issuet stå åpent inntill vi får testet skikkelig.

Det viste seg å være marginale forskjeller i newlines fra outputet generert av "PyHFST" og "HFST", som gjorde at resultatene til "PyHFST" ikke kom "i samme pulje" (det var to mellomrom mellom hvert treff fra analysatoren).

Noe (jeg aner ikke hva - selv etter noen timers utforskning..), tar denne outputen, og ordner rekkefølgen slik at den blir riktig. Nå som outputtet fra PyHFST er lik HFST, så blir resultatene også ordnet på riktig måte.

Phaqui commented 1 year ago

Ser ut til at fiksen har fungert, da vi ikke har registrert noen flere tilfeller. Vi får heller gjenåpne hvis det kommer tilbake!