giellalt / lang-sma

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Southern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
2 stars 3 forks source link

hashtag til bindestrek i sma (Bugzilla Bug 2678) #32

Closed albbas closed 3 months ago

albbas commented 4 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2678

Date: 2020-09-15T16:23:09+02:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: @argese.chiara@gmail.com, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud, @unhammer@fsfe.org

Last updated: 2020-10-26T15:20:45+01:00

albbas commented 4 years ago

Comment 13991

Date: 2020-09-15 16:23:09 +0200 From: Lene Antonsen <>

Dette gjelder hashtag til bindestrek i sma. Hvordan skal vi unngå at de kommer med i MT og til paradigmet i NDS?

Slik ser det ut NDS-paradigmet: saemien-gieliem saemiengieliem saemien-gielide saemien-geelide saemiengielide saemiengeelide

MT: Tjoerebe badth hijven-laakan/hijvenlaakan gåårvedidh, tjidtjie Biretasse jeahta.

Vi har diskutert dette før, men jeg fant ikke bz. Jeg mener at konklusjonen var å legge til vekt? Det er ingen vekt no

hdsmaNorm hijven+A+Attr+Der/laakan+Adv hijven+A+Attr+Der/laakan+Adv hijven-laakan 0,000000 hijven+A+Attr+Der/laakan+Adv hijvenlaakan 0,000000

saemiengielie+N+Sg+Acc saemiengielie+N+Sg+Acc saemien-gieliem 0,000000 saemiengielie+N+Sg+Acc saemiengieliem 0,000000

albbas commented 4 years ago

Comment 14041

Date: 2020-10-09 10:37:46 +0200 From: Sjur Nørstebø Moshagen <>

For å få vektar må ein nytta eit fst-format som støttar vektar. Dessverre er det formatet samtidig det som bruker lengst tid på å kompilera.

Vi har no endra standardkonfigurasjonen slik at om du skriv:

./configure

(altså utan ekstra spesifiseringar) så får du hfst, i foma-format. Dette er den raskaste måten å kompilera hfst-analysatorar på, og konkurrerer med Xerox i kompileringsfart (men med stor variasjon mellomspråk - xerox er jamnt over ein god del raskare, men twolc-integreringa har vi fått optimalisert med hfst slik at den er mykje raskare enn xerox).

For å få vekter så må du skriva dette:

./configure --with-backend-format=openfst-tropical

Men då tek altså kompileringa lenger tid.

Merk at du etter å ha gjort dette må skriva make clean før du kan skriva make.

Eg vil føreslå at i det daglege arbeidet så nyttar vi standardoppsettet (som er utan vekter), men at for NDS og andre verkty så byggjer vi fst-ane med vekter. Den bygginga bør vera automatisert.

Med vekter så ser døma dine slik ut for meg:

echo hijven+A+Attr+Der/laakan+Adv | hfst-lookup -q src/generator-gt-norm.hfstol hijven+A+Attr+Der/laakan+Adv hijvenlaakan 0,000000 hijven+A+Attr+Der/laakan+Adv hijven-laakan 10,000000

echo saemiengielie+N+Sg+Acc | hfst-lookup -q src/generator-gt-norm.hfstol saemiengielie+N+Sg+Acc saemiengieliem 0,000000 saemiengielie+N+Sg+Acc saemien-gieliem 10,000000

Er dette slik det skal vera?

albbas commented 4 years ago

Comment 14042

Date: 2020-10-09 11:06:59 +0200 From: Lene Antonsen <>

Spørsmål til Kevin: Vil dette være en løsning for Apertium MT? Kan vi kompilere slik at vektene er med og at den med vekt 10,000000 eller mer filtreres bort? (jeg synes å huske at det var problemer med denne løsningen for Apertium tidligere, men det kan ha endret seg)

Spørsmål til Chiara: Vil dette være en løsning for NDS? Kan vi filtrere bort formene med vekt 10,000000 eller mer filtreres bort?

Jeg regner med at med at ord med flere sammensetninger vil få vekter som 20,0000 og 30,00000 ?

albbas commented 4 years ago

Comment 14043

Date: 2020-10-09 11:09:00 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Lene Antonsen from comment #2)

Jeg regner med at med at ord med flere sammensetninger vil få vekter som 20,0000 og 30,00000 ?

Ja.

albbas commented 4 years ago

Comment 14072

Date: 2020-10-23 09:30:14 +0200 From: @unhammer@fsfe.org

(In reply to Lene Antonsen from comment #2)

Spørsmål til Kevin: Vil dette være en løsning for Apertium MT? Kan vi kompilere slik at vektene er med og at den med vekt 10,000000 eller mer filtreres bort? (jeg synes å huske at det var problemer med denne løsningen for Apertium tidligere, men det kan ha endret seg)

Vekter er allereie brukt i sme-nob iallfall, i analysatoren:

$ echo vuolla|hfst-lookup -q sme-nob.automorf.hfst vuolla vuolla 0,000000 vuolla vuolla 0,000000

$ echo vuollavuollavuolla|hfst-lookup -q sme-nob.automorf.hfst vuollavuollavuolla vuolla+vuolla+vuolla 20,000000 vuollavuollavuolla vuolla+vuolla+vuolla 20,000000 vuollavuollavuolla vuolla+vuolla+vuolla 20,000000 vuollavuollavuolla vuolla+vuolla+vuolla 20,000000 vuollavuollavuolla vuolla+vuolla+vuolla 20,000000 vuollavuollavuolla vuolla+vuolla+vuolla 20,000000 vuollavuollavuolla vuolla+vuolla+vuolla 20,000000 vuollavuollavuolla vuolla+vuolla+vuolla 20,000000

for å prioritera leksikaliserte oppslag:

$ echo koronavirus|hfst-proc --weight-classes 1 sme-nob.automorf.hfst ^koronavirus/koronavirus/koronavirus$

$ echo koronavirus|hfst-proc --weight-classes 2 sme-nob.automorf.hfst ^koronavirus/koronavirus/koronavirus/korona+virus/korona+virus/korona+virus/korona+virus/korona+virus/korona+virus/korona+virus/korona+virus$

Det ser ut som sme-sma.autogen.hfst allereie er vekta:

$ hfst-summarise -v /usr/share/apertium/apertium-sme-sma/sme-sma.autogen.hfst |grep -i weight Reading from /usr/share/apertium/apertium-sme-sma/sme-sma.autogen.hfst, writing to Summarizing... arc type: weighted weighted: yes

så då er det vel berre å køyra på?

albbas commented 4 years ago

Comment 14075

Date: 2020-10-23 10:49:30 +0200 From: Lene Antonsen <>

Kevin: hva mener du med: så då er det vel berre å køyra på? Hva skal gjøres for å få unngå slikt:

echo lullisámegiella|apertium -d. sme-sma åarjel-saemien-gïele/åarjel-saemiengïele/åarjelsaemien-gïele/åarjelsaemiengïele

albbas commented 4 years ago

Comment 14078

Date: 2020-10-23 12:23:45 +0200 From: @unhammer@fsfe.org

Altså å legga til vekt på den varianten du ikkje vil generera

albbas commented 4 years ago

Comment 14079

Date: 2020-10-23 12:53:54 +0200 From: Lene Antonsen <>

(In reply to Kevin Brubeck Unhammer from comment #6)

Altså å legga til vekt på den varianten du ikkje vil generera

Vil dette fungere hvis jeg skriver: ./configure --with-backend-format=openfst-tropical --with-hfst --enable-apertium

Eller må Makefila endres? I tilfelle at den må endres, hvem gjør det?

albbas commented 4 years ago

Comment 14080

Date: 2020-10-23 16:02:27 +0200 From: Lene Antonsen <>

Det fungerte bare med en ny configure i min maskin! echo lullisámegiella|apertium -d. sme-sma åarjelsaemiengïele

Dette bør legges inn i automatisk jobb hos Tino, og evt andre steder

albbas commented 4 years ago

Comment 14085

Date: 2020-10-26 15:19:22 +0100 From: Lene Antonsen <>

Jeg har fornyet dict-generatorer og analysatorer, og lagt på gtdict-server med slik configure: ./configure --enable-dicts --with-backend-format=openfst-tropical

Nå blir det generering med vekter, dvs at Chiara kan for bøyningsparadigmet filtrere bort dem som har vekt mer enn 0,00000

albbas commented 4 years ago

Comment 14086

Date: 2020-10-26 15:20:45 +0100 From: Lene Antonsen <>

Slik ser det ut nå på gtdict.uit.no:

echo åarjelsaemiengïele+N+Sg+Nom |hfst-lookup /opt/smi/sma/bin/generator-dict-gt-norm.hfstol

åarjelsaemiengïele+N+Sg+Nom åarjelsaemiengïele 0,000000 åarjelsaemiengïele+N+Sg+Nom åarjel-saemiengïele 10,000000 åarjelsaemiengïele+N+Sg+Nom åarjelsaemien-gïele 10,000000 åarjelsaemiengïele+N+Sg+Nom åarjel-saemien-gïele 20,000000

snomos commented 3 months ago

Dette er no i boks, jf #23 .