giellalt / lang-sma

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Southern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 3 forks source link

Fjern dobbeltgenererte former av samansetjingar i MT - ± bindestrek #23

Closed snomos closed 1 month ago

snomos commented 5 months ago

Frå @leneantonsen:

problem med at # blir til bindestrek

Det blir altså bindestrek som eit alternativ til null, og det gjev doble former i teksten som MT genererer. Det er sjølvsagt ikkje ok.

snomos commented 3 months ago

Dette er eit problem berre om ein har uvekta FST-ar. Med ein vekta FST, konfigurert slik:

./configure --enable-apertium --with-backend-format=openfst-tropical

så blir resultatet dette:

echo 'goltelesijjie<n><sg><nom>' | hfst-lookup -q tools/mt/apertium/generator-mt-apertium-norm.hfstol
goltelesijjie<n><sg><nom>   goltelesijjie   0.000000
goltelesijjie<n><sg><nom>   goltele-sijjie  10.000000

og då kan ein enkelt filtrera vekk alle andre enn den analysen med lågast vekt, anten med CG-reglar, eller allereie med lookup:

echo 'goltelesijjie<n><sg><nom>' | hfst-lookup -q -b 1 tools/mt/apertium/generator-mt-apertium-norm.hfstol
goltelesijjie<n><sg><nom>   goltelesijjie   0.000000
snomos commented 3 months ago

For at dette skal fungera i produksjonssystem krevst det sjølvsagt at:

  1. generatoren er vekta
  2. det finst ein mekanisme for å filtrera vekk former med ikkje-minst vekt
snomos commented 3 months ago

Etter testing så ser @leneantonsen og eg at ting fungerer lokalt for oss begge. Det som då står att er å sjekka om det er feil i bygginga for apertium-serveren. Kan du sjekka det, @unhammer ?

snomos commented 3 months ago

Feilen ligg ikkje i lang-sma, men eg ventar med å lata att denne saka til @unhammer har stadfest at feilen er retta annan stades.

unhammer commented 3 months ago
$ apt-cache show giella-sma|grep Version
Version: 0.2.0+g12648~1045a5f1-1~sid1

$ git log 1045a5f1 -n1
commit 1045a5f1a272b58a3d89660996d95aa08e232df1
Author: Sjur N Moshagen <sjurnm@mac.com>
Date:   Thu Apr 11 17:47:11 2024 +0300

    Retta skrivefeil i stammen, som stoppa make check

så siste gong ei lang-sma-pakke blei bygd i Tino sitt system er april 1045a5f1a272b58a3d89660996d95aa08e232df1 .

Er det slik at

snomos commented 3 months ago

Lang-sma gjev korrekte former med nyaste og eldre versjonar dersom:

Men eg veit ikkje om det fyrste punktet stemmer for Tino sitt byggjesystem, og heller ikkje om det andre punktet stemmer for oppsettet på serveren.

unhammer commented 3 months ago

På gtweb køyrer berre det Lene lastar opp, så viss det fungerer for ho, så burde det fungera på gtweb.

Det ser ut som giella-sma.deb blir bygd med $ ./configure --build=x86_64-linux-gnu --prefix=/usr '--includedir=${prefix}/include' '--mandir=${prefix}/share/man' '--infodir=${prefix}/share/info' --sysconfdir=/etc --localstatedir=/var --disable-option-checking --disable-silent-rules '--libdir=${prefix}/lib/x86_64-linux-gnu' --runstatedir=/run --disable-maintainer-mode --disable-dependency-tracking --without-forrest --with-hfst --enable-tokenisers --without-xfst --enable-reversed-intersect --enable-spellers --enable-hfst-mobile-speller --enable-alignment --disable-minimised-spellers --enable-syntax --enable-analysers --enable-generators --enable-apertium --enable-grammarchecker --with-backend-format=foma --enable-dicts --enable-oahpa --enable-morpher --disable-hfst-desktop-spellers jf. http://apertium.projectjj.com/apt/logs/giella-sma/sid-amd64.log

TinoDidriksen commented 3 months ago

...right, gramtool kræves jo nu af mange sprog. Den har jeg packaged, men glemt faktisk at bruge i builds.

snomos commented 3 months ago

Det ser ut som giella-sma.deb blir bygd med [...] --with-backend-format=foma

Dette er problemet. For at analysatorane som blir bygde skal fungera korrekt med MT, så må den delen av ./configure-argumenta vera --with-backend-format=openfst-tropical. Etter det burde MT-servaren fungera korrekt for SMA.

TinoDidriksen commented 3 months ago

giella-sma rebuilt with gtgramcheck and backend-format=openfst-tropical. Se om det virker.

flammie commented 1 month ago

det skulle fungere med foma backend nå også fra https://github.com/giellalt/lang-sma/commit/169c636535dcdf21da6f00b79adef1998b2d9164, mt/apertium blir alltid bygt med openfst men det del av reweight som disambiguerer bindestrek uten +Cmp tagg i https://github.com/giellalt/lang-sma/blob/main/src/Makefile.am#L26-L27 var ikke i bruk uten openfst

snomos commented 1 month ago

@leneantonsen fungerer ting som dei skal no? Kan denne feilmeldinga avsluttast? Det er elles same feil som er meldt tidlegare i Bugzilla, og som no finst som #32 .