giellalt / bugzilla-dummy

0 stars 0 forks source link

dictionary-include.am: remove-semantic-tags-except-prop (Bugzilla Bug 1774) #1482

Closed albbas closed 9 years ago

albbas commented 10 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 1774

Date: 2014-01-10T20:40:13+01:00 From: Ryan Johnson <> To: Sjur Nørstebø Moshagen <> CC: lene.antonsen, rueter.jack, ryan.txanson, sjur.n.moshagen, trond.trosterud

Last updated: 2015-01-08T09:48:57+01:00

albbas commented 10 years ago

Comment 8863

Date: 2014-01-10 20:40:13 +0100 From: Ryan Johnson <>

Hei!

Dette var noko eg gløymde medan me tala om andre buggar i NDS: semantiske taggar.

remove-semantic-tags-except-prop.regex er på vei ut, men det er framleis inkludert i templates/und/.../dictionary-include.am. Det må fjernast og endrast til den nye skripten: men, spursmål om noko sjenerelt og:

Når eg endra siste gongen slik at dictionary-include.am hadde med seg regex til semantiske taggar, oppdaga eg at eg ikkje kunne kompilera med ./configure --enable-dicts, fordi eg måtte ogso inkludera regex i språkets src/filters/Makefile.am. Kanskje det var min feil på nokon stad, men eg trudde at dictionary-include.am ville sørgja for at .regex vert med frå templatet. Er det mogleg å unngå dette, eller er må det gå i to stigar?

Eg veit ikkje heller kven eg burde setja som ansvarleg, då legg til folk som eg mista. :) Eg sett Jaska på lista ogso, fordi han er med i arbeid på ulike språk i NDS på gtweb.

R

albbas commented 10 years ago

Comment 8934

Date: 2014-01-15 22:20:06 +0100 From: Ryan Johnson <>

Hei,

Endra prioritet, berre fordi dette var merka tidlegare som 'enhancement'. :)

albbas commented 10 years ago

Comment 9039

Date: 2014-01-29 21:28:55 +0100 From: Ryan Johnson <>

Bug #1806 has been marked as a duplicate of this bug.

albbas commented 10 years ago

Comment 9107

Date: 2014-02-11 14:55:58 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to comment #0)

Når eg endra siste gongen slik at dictionary-include.am hadde med seg regex til semantiske taggar, oppdaga eg at eg ikkje kunne kompilera med ./configure --enable-dicts, fordi eg måtte ogso inkludera regex i språkets src/filters/Makefile.am. Kanskje det var min feil på nokon stad, men eg trudde at dictionary-include.am ville sørgja for at .regex vert med frå templatet. Er det mogleg å unngå dette, eller er må det gå i to stigar?

Språkuavhengige filter skal bli spesifiserte i templatet, men for at dei skal byggjast må dei ferdigkompilerte fst-ane spesifiserast i src/filters/Makefile.am. Der finst det ein seksjon for språkuavhengige filter, og ein annan seksjon for språkspesifikke filter. I og med at dei semantiske taggane no blir trekte ut av fst-en, er filteret språkuavhengig, og det skal stå spesifisert i den språkuavhengige delen av Makefile.am. Det skal gjerast i templatet, og deretter spreiast ut til alle språk.

albbas commented 10 years ago

Comment 9206

Date: 2014-03-24 23:00:28 +0100 From: Sjur Nørstebø Moshagen <>

No har eg gått relative grundig gjennom dict-fst-ane og dei filtra som blir brukte på dei, jf http://giellatekno.uit.no/doc/lang/sme/KompilereFST.html, og eg har retta opp i ein feil i det genererte filteret remove-semantic-tags. Eg har samtidig sletta referansen til remove-semantic-tags-except-prop - det var eit manuelt bygt filter, og det har vore meir eller mindre konstant ute av synk.

remove-semantic-tags blir bygt automatisk, og alt ser ut til å funka no.

Eg har lagt til testar i test/src/morphology/:

dicttests_dict-gt-desc.ana.yaml dicttests_dict-gt-norm.gen.yaml

for respektive dict-analysatoren og dict-generatoren. Ein kan køyra testane slik:

./configure --enable-dicts make make check

Det er nokre fst-feil i begge, så eg har lagt testskripta inn i XFAIL_TESTS, slik at dei ikkje stoppar resten av testane. Når testane går gjennom som det er meininga, er det berre å ta dei vekk frå XFAIL_TESTS i fila:

test/src/morphology/Makefile.am

Det som står der er namnet på shell-skripta som testar yaml-filene. Shellskripta er:

run-dict-gt-desc-anayaml-testcases.sh run-dict-gt-norm-genyaml-testcases.s

Fint om de kan testa alt, og sjå at alt funkar som det skal (etter å ha retta opp i lexc eller testdata).

albbas commented 10 years ago

Comment 9215

Date: 2014-03-25 20:58:24 +0100 From: Ryan Johnson <>

Tusen takk! Eg går gjennom byggjeprosessen på gtweb for muter og sanat i NDS, og det ser ut som alt fungerar som det skal.

Kanskje dette ville høva betre i ein feature request, men trur du at det vert mogleg å nytta dictionary-include.am infra til å byggja xml-leksikonar, eller er det best at alt i include-fila gjeld FST? For kompilering i NDS, er det berre ei linje med SAXON:

SAXON := java -Xmx2048m -cp ~/lib/saxon9.jar \
         -Dfile.encoding=UTF8 net.sf.saxon.Transform \
         -it:main $(COLLECT_PARTS)

... snip ...

$(SAXON) inDir=$(GTHOME)/langs/$$ll/src/morphology/stems/ > $$ll-all.xml ; \

Viss ikkje, går det greit for meg. Eg framleis kompilerar i ei eiga Makefile i NDS, men det hadde vore fint å skifte dette ut til infra, slik at det er lettare å ha knotrol på det som er med i leksikon, og ogso få moglegheit til å laga lokale språk-spesifiske endringar.

albbas commented 10 years ago

Comment 9341

Date: 2014-04-25 17:25:28 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #5)

Tusen takk! Eg går gjennom byggjeprosessen på gtweb for muter og sanat i NDS, og det ser ut som alt fungerar som det skal.

Bra:)

Kanskje dette ville høva betre i ein feature request, men trur du at det vert mogleg å nytta dictionary-include.am infra til å byggja xml-leksikonar, eller er det best at alt i include-fila gjeld FST?

Det er truleg best at alt gjeld fst-ane. src_dictionary-include.am er inkludert av src-dir-include.am, og gjeld alt som blir prosessert i src/-katalogen. Eg trur det blir betre å leggja til kommandoane for xml i begging for src/morphology/, der finst det alt støtte for å prosessera xml-filer.

Kor ligg fila det blir vist til i variabelen $(COLLEC_PARTS)?

For kompilering i NDS, er det berre ei linje med SAXON:

SAXON := java -Xmx2048m -cp ~/lib/saxon9.jar \
         -Dfile.encoding=UTF8 net.sf.saxon.Transform \
         -it:main $(COLLECT_PARTS)

 ... snip ...

$(SAXON) inDir=$(GTHOME)/langs/$$ll/src/morphology/stems/ > $$ll-all.xml ;

\

Dette ser jo enkelt ut, og burde ikkje vera noko problem å leggja til.

Viss ikkje, går det greit for meg. Eg framleis kompilerar i ei eiga Makefile i NDS, men det hadde vore fint å skifte dette ut til infra, slik at det er lettare å ha knotrol på det som er med i leksikon, og ogso få moglegheit til å laga lokale språk-spesifiske endringar.

Kva slags lokale språkendringar er det du ser for deg?

albbas commented 10 years ago

Comment 9344

Date: 2014-04-27 01:05:22 +0200 From: Ryan Johnson <>

(In reply to comment #6)

(In reply to comment #5)

Tusen takk! Eg går gjennom byggjeprosessen på gtweb for muter og sanat i NDS, og det ser ut som alt fungerar som det skal.

Bra:)

Kanskje dette ville høva betre i ein feature request, men trur du at det vert mogleg å nytta dictionary-include.am infra til å byggja xml-leksikonar, eller er det best at alt i include-fila gjeld FST?

Det er truleg best at alt gjeld fst-ane. src_dictionary-include.am er inkludert av src-dir-include.am, og gjeld alt som blir prosessert i src/-katalogen. Eg trur det blir betre å leggja til kommandoane for xml i begging for src/morphology/, der finst det alt støtte for å prosessera xml-filer.

Kor ligg fila det blir vist til i variabelen $(COLLEC_PARTS)?

Her er alt som eg bruker for kompilering:

COLLECT_PARTS := $(GTHOME)/words/dicts/scripts/collect-dict-parts.xsl SAXON := java -Xmx2048m -cp ~/lib/saxon9.jar \ -Dfile.encoding=UTF8 net.sf.saxon.Transform \ -it:main $(COLLECT_PARTS)

COLLECT_PARTS_SME_NOB := $(GTHOME)/words/dicts/scripts/collect-dict-parts-smenob.xsl SAXON_SME_NOB := java -Xmx2048m -cp ~/lib/saxon9.jar \ -Dfile.encoding=UTF8 net.sf.saxon.Transform \ -it:main $(COLLECT_PARTS_SME_NOB)

For kompilering i NDS, er det berre ei linje med SAXON:

SAXON := java -Xmx2048m -cp ~/lib/saxon9.jar \
         -Dfile.encoding=UTF8 net.sf.saxon.Transform \
         -it:main $(COLLECT_PARTS)

 ... snip ...

$(SAXON) inDir=$(GTHOME)/langs/$$ll/src/morphology/stems/ > $$ll-all.xml ;

\

Dette ser jo enkelt ut, og burde ikkje vera noko problem å leggja til.

Viss ikkje, går det greit for meg. Eg framleis kompilerar i ei eiga Makefile i NDS, men det hadde vore fint å skifte dette ut til infra, slik at det er lettare å ha knotrol på det som er med i leksikon, og ogso få moglegheit til å laga lokale språk-spesifiske endringar.

Kva slags lokale språkendringar er det du ser for deg?

Eg kjem ikkje på noko no (bortsett frå ulike XSLT skriptar), dette er bra. Eg hadde eksemplar over ting som kunne vera språkspesifiske endringar, men eg trur at desse kan berre lagrast i kjeldefiler til staden for å køyre sed, osv. T.d., i kompileringa i NDS eg hadde behov før, til å leggja til usage="vd" til ulike språkpar, men no er ingen treng til det. Språk som hev andre behov kan berre leggja attributtar til i kjeldefiler, og då er alt bra.

albbas commented 10 years ago

Comment 9356

Date: 2014-04-28 10:42:25 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to comment #7)

Kor ligg fila det blir vist til i variabelen $(COLLEC_PARTS)?

Her er alt som eg bruker for kompilering:

COLLECT_PARTS := $(GTHOME)/words/dicts/scripts/collect-dict-parts.xsl

Problemet for ny infra er at ein må sjekka ut heile $GTHOME for å få med set xsl-fila. Eitt alternativ er å flytta fila til $GTCORE, og referera ho derifrå - dei som arbeider med $GTHOME/words//dicts/ har jo $GTHOME, medan dei som berre sjekkar ut enkeltspråk berre treng $GTCORE i tillegg. $GTHOME burde difor vera ein meire robust plass for xsl-fila.

COLLECT_PARTS_SME_NOB := $(GTHOME)/words/dicts/scripts/collect-dict-parts-smenob.xsl SAXON_SME_NOB := java -Xmx2048m -cp ~/lib/saxon9.jar \ -Dfile.encoding=UTF8 net.sf.saxon.Transform \ -it:main $(COLLECT_PARTS_SME_NOB)

SMENOB kan vi hoppa over, og la vera der ho her. Korkje SME eller NOB har xml-baserte lexc-leksikon, og det er difor ikkje relevant å sjå på dette no.

Samtidig illustrerer SMENOB problemet med xml-leksikna for ordboksbruk: vi blandar einspråkleg info med fleirspråkleg. Informasjonen i $GTHOME/langs/$GTLANG/ er meint å vera berre einspråkleg, og vi brut med infrastrukturdesignen ved å leggja inn fleirspråklege data. Det vil på silt skapa vedlikehaldsproblem og andre problem.

Kva slags lokale språkendringar er det du ser for deg?

Eg kjem ikkje på noko no (bortsett frå ulike XSLT skriptar), dette er bra. Eg hadde eksemplar over ting som kunne vera språkspesifiske endringar, men eg trur at desse kan berre lagrast i kjeldefiler til staden for å køyre sed, osv. T.d., i kompileringa i NDS eg hadde behov før, til å leggja til usage="vd" til ulike språkpar, men no er ingen treng til det. Språk som hev andre behov kan berre leggja attributtar til i kjeldefiler, og då er alt bra.

Dersom det er språkspesifikke xsl-endriingar/-tillegg bør dei leggjast i ein include-fil som kan overkøyra standard-xsl-en. På det visit kan ein bruka same grunnfil og same byggjestruktur for alle språk.

albbas commented 9 years ago

Comment 9617

Date: 2014-10-07 11:00:54 +0200 From: Sjur Nørstebø Moshagen <>

Er dette framleis eit problem for deg? Eller kan vi avslutta denne lusmeldinga?

albbas commented 9 years ago

Comment 9634

Date: 2014-10-16 22:42:42 +0200 From: Ryan Johnson <>

(In reply to comment #9)

Er dette framleis eit problem for deg? Eller kan vi avslutta denne lusmeldinga?

Hei, nei, dette er ikkje lengre eit problem, men kanskje eit opent spursmål for deg. Eg er samd med plassering av xsl-skripta i GTCORE, so langt det er mogleg å overkøyra-- men det er ikkje noko som eg treng for å gå vidare med det eg gjer i NDS, då kan me avslutta buggen og ta opp spursmålet om leksikona seinare. :)

albbas commented 9 years ago

Comment 9941

Date: 2015-01-08 09:48:57 +0100 From: Sjur Nørstebø Moshagen <>

Etter siste kommentaren frå Ryan avsluttar eg denne lusmeldinga.