Closed albbas closed 3 months ago
Date: 2020-09-15 16:23:09 +0200
From: Lene Antonsen <
Dette gjelder hashtag til bindestrek i sma. Hvordan skal vi unngå at de kommer med i MT og til paradigmet i NDS?
Slik ser det ut NDS-paradigmet: saemien-gieliem saemiengieliem saemien-gielide saemien-geelide saemiengielide saemiengeelide
MT: Tjoerebe badth hijven-laakan/hijvenlaakan gåårvedidh, tjidtjie Biretasse jeahta.
Vi har diskutert dette før, men jeg fant ikke bz. Jeg mener at konklusjonen var å legge til vekt? Det er ingen vekt no
hdsmaNorm hijven+A+Attr+Der/laakan+Adv hijven+A+Attr+Der/laakan+Adv hijven-laakan 0,000000 hijven+A+Attr+Der/laakan+Adv hijvenlaakan 0,000000
saemiengielie+N+Sg+Acc saemiengielie+N+Sg+Acc saemien-gieliem 0,000000 saemiengielie+N+Sg+Acc saemiengieliem 0,000000
Date: 2020-10-09 10:37:46 +0200
From: Sjur Nørstebø Moshagen <
For å få vektar må ein nytta eit fst-format som støttar vektar. Dessverre er det formatet samtidig det som bruker lengst tid på å kompilera.
Vi har no endra standardkonfigurasjonen slik at om du skriv:
./configure
(altså utan ekstra spesifiseringar) så får du hfst, i foma-format. Dette er den raskaste måten å kompilera hfst-analysatorar på, og konkurrerer med Xerox i kompileringsfart (men med stor variasjon mellomspråk - xerox er jamnt over ein god del raskare, men twolc-integreringa har vi fått optimalisert med hfst slik at den er mykje raskare enn xerox).
For å få vekter så må du skriva dette:
./configure --with-backend-format=openfst-tropical
Men då tek altså kompileringa lenger tid.
Merk at du etter å ha gjort dette må skriva make clean
før du kan skriva make
.
Eg vil føreslå at i det daglege arbeidet så nyttar vi standardoppsettet (som er utan vekter), men at for NDS og andre verkty så byggjer vi fst-ane med vekter. Den bygginga bør vera automatisert.
Med vekter så ser døma dine slik ut for meg:
echo hijven+A+Attr+Der/laakan+Adv | hfst-lookup -q src/generator-gt-norm.hfstol hijven+A+Attr+Der/laakan+Adv hijvenlaakan 0,000000 hijven+A+Attr+Der/laakan+Adv hijven-laakan 10,000000
echo saemiengielie+N+Sg+Acc | hfst-lookup -q src/generator-gt-norm.hfstol saemiengielie+N+Sg+Acc saemiengieliem 0,000000 saemiengielie+N+Sg+Acc saemien-gieliem 10,000000
Er dette slik det skal vera?
Date: 2020-10-09 11:06:59 +0200
From: Lene Antonsen <
Spørsmål til Kevin: Vil dette være en løsning for Apertium MT? Kan vi kompilere slik at vektene er med og at den med vekt 10,000000 eller mer filtreres bort? (jeg synes å huske at det var problemer med denne løsningen for Apertium tidligere, men det kan ha endret seg)
Spørsmål til Chiara: Vil dette være en løsning for NDS? Kan vi filtrere bort formene med vekt 10,000000 eller mer filtreres bort?
Jeg regner med at med at ord med flere sammensetninger vil få vekter som 20,0000 og 30,00000 ?
Date: 2020-10-09 11:09:00 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Lene Antonsen from comment #2)
Jeg regner med at med at ord med flere sammensetninger vil få vekter som 20,0000 og 30,00000 ?
Ja.
Date: 2020-10-23 09:30:14 +0200 From: @unhammer@fsfe.org
(In reply to Lene Antonsen from comment #2)
Spørsmål til Kevin: Vil dette være en løsning for Apertium MT? Kan vi kompilere slik at vektene er med og at den med vekt 10,000000 eller mer filtreres bort? (jeg synes å huske at det var problemer med denne løsningen for Apertium tidligere, men det kan ha endret seg)
Vekter er allereie brukt i sme-nob iallfall, i analysatoren:
$ echo vuolla|hfst-lookup -q sme-nob.automorf.hfst
vuolla vuolla
$ echo vuollavuollavuolla|hfst-lookup -q sme-nob.automorf.hfst
vuollavuollavuolla vuolla
for å prioritera leksikaliserte oppslag:
$ echo koronavirus|hfst-proc --weight-classes 1 sme-nob.automorf.hfst
^koronavirus/koronavirus
$ echo koronavirus|hfst-proc --weight-classes 2 sme-nob.automorf.hfst
^koronavirus/koronavirus
Det ser ut som sme-sma.autogen.hfst allereie er vekta:
$ hfst-summarise -v /usr/share/apertium/apertium-sme-sma/sme-sma.autogen.hfst |grep -i weight
Reading from /usr/share/apertium/apertium-sme-sma/sme-sma.autogen.hfst, writing to
så då er det vel berre å køyra på?
Date: 2020-10-23 10:49:30 +0200
From: Lene Antonsen <
Kevin: hva mener du med: så då er det vel berre å køyra på? Hva skal gjøres for å få unngå slikt:
echo lullisámegiella|apertium -d. sme-sma åarjel-saemien-gïele/åarjel-saemiengïele/åarjelsaemien-gïele/åarjelsaemiengïele
Date: 2020-10-23 12:23:45 +0200 From: @unhammer@fsfe.org
Altså å legga til vekt på den varianten du ikkje vil generera
Date: 2020-10-23 12:53:54 +0200
From: Lene Antonsen <
(In reply to Kevin Brubeck Unhammer from comment #6)
Altså å legga til vekt på den varianten du ikkje vil generera
Vil dette fungere hvis jeg skriver: ./configure --with-backend-format=openfst-tropical --with-hfst --enable-apertium
Eller må Makefila endres? I tilfelle at den må endres, hvem gjør det?
Date: 2020-10-23 16:02:27 +0200
From: Lene Antonsen <
Det fungerte bare med en ny configure i min maskin! echo lullisámegiella|apertium -d. sme-sma åarjelsaemiengïele
Dette bør legges inn i automatisk jobb hos Tino, og evt andre steder
Date: 2020-10-26 15:19:22 +0100
From: Lene Antonsen <
Jeg har fornyet dict-generatorer og analysatorer, og lagt på gtdict-server med slik configure: ./configure --enable-dicts --with-backend-format=openfst-tropical
Nå blir det generering med vekter, dvs at Chiara kan for bøyningsparadigmet filtrere bort dem som har vekt mer enn 0,00000
Date: 2020-10-26 15:20:45 +0100
From: Lene Antonsen <
Slik ser det ut nå på gtdict.uit.no:
echo åarjelsaemiengïele+N+Sg+Nom |hfst-lookup /opt/smi/sma/bin/generator-dict-gt-norm.hfstol
åarjelsaemiengïele+N+Sg+Nom åarjelsaemiengïele 0,000000 åarjelsaemiengïele+N+Sg+Nom åarjel-saemiengïele 10,000000 åarjelsaemiengïele+N+Sg+Nom åarjelsaemien-gïele 10,000000 åarjelsaemiengïele+N+Sg+Nom åarjel-saemien-gïele 20,000000
Dette er no i boks, jf #23 .
This issue was created automatically with bugzilla2github
Bugzilla Bug 2678
Date: 2020-09-15T16:23:09+02:00 From: Lene Antonsen <>
To: Sjur Nørstebø Moshagen <>
CC: @argese.chiara@gmail.com, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud, @unhammer@fsfe.org
Last updated: 2020-10-26T15:20:45+01:00