giellalt / bugzilla-dummy

0 stars 0 forks source link

Generalisert oppsett for CG-gullkorpus (Bugzilla Bug 2356) #1478

Closed albbas closed 7 years ago

albbas commented 7 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2356

Date: 2017-03-13T14:51:21+01:00 From: Trond Trosterud <> To: Sjur Nørstebø Moshagen <> CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2017-09-15T08:52:49+02:00

albbas commented 7 years ago

Comment 12156

Date: 2017-03-13 14:51:21 +0100 From: Trond Trosterud <>

I dag har vi det oppsettet Lene har laga for nordsamisk gullkorpus for CG.

Dette vil eg gjerne lage ein generalisert versjon av, for alle språk.

albbas commented 7 years ago

Comment 12185

Date: 2017-03-14 14:15:43 +0100 From: Sjur Nørstebø Moshagen <>

Eg går ut frå at det er dette testskriptet du tenkjer på:

langs/sme/test/src/syntax/disambiguation_developertest.sh

albbas commented 7 years ago

Comment 12186

Date: 2017-03-14 14:18:27 +0100 From: Sjur Nørstebø Moshagen <>

Kort spørsmål: om det er slik at dette skriptet aldri går i null (dvs det vil alltid vera diffar mellom førre og ny versjon), så bør ikkje skriptet inn i make check. Då vil det vera rimeleg å leggja eit slikt skript i sme/devtools/ (fordi det er eit verkty for utviklarane/lingvistane) heller enn i test/src/syntax/ - alle testane under test/ er tenkt å vera ein del av 'make check'.

Kva trur de?

albbas commented 7 years ago

Comment 12187

Date: 2017-03-14 14:21:14 +0100 From: Lene Antonsen <>

Nei, dette skal ikke inn i make check.

Hvis vi skal ha noe inn i make check, så bør det bare være noen får testsetninger for å sjekke at pipeline fungerer.

albbas commented 7 years ago

Comment 12188

Date: 2017-03-14 14:29:43 +0100 From: Sjur Nørstebø Moshagen <>

Kva er skilnaden på desse tre:

langs/sme/test/src/syntax/: disambiguation_developertest.sh syntax_developertest.sh testfunctions.sh

albbas commented 7 years ago

Comment 12189

Date: 2017-03-14 14:36:57 +0100 From: Lene Antonsen <>

Hvis Trond synes det er ok, så kan jeg heller legge dem til for de språkene som er aktuelle. Jeg vil foretrekke at de er leselige for meg, siden det stort sett er jeg som følger med og oppdaterer disse.

albbas commented 7 years ago

Comment 12190

Date: 2017-03-14 14:41:38 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to Lene Antonsen from comment #3)

Nei, dette skal ikke inn i make check.

Hvis vi skal ha noe inn i make check, så bør det bare være noen får testsetninger for å sjekke at pipeline fungerer.

Dvs noko i stil med:

$GTHOME/langs/sme/test/data/inputCGtest.txt

som er brukt av:

langs/sme/test/src/syntax/testfunctions.sh

?

albbas commented 7 years ago

Comment 12191

Date: 2017-03-14 14:43:52 +0100 From: Sjur Nørstebø Moshagen <>

(In reply to Lene Antonsen from comment #5)

Hvis Trond synes det er ok, så kan jeg heller legge dem til for de språkene som er aktuelle. Jeg vil foretrekke at de er leselige for meg, siden det stort sett er jeg som følger med og oppdaterer disse.

Trond ba meg gjera dette pga reisa til Russland neste veke, og ut i frå ein tanke om at desse skripta vil vera til nytte for alle språk.

Du kan sjølvsagt halda dine versjonar, men tanken var å generalisera skripta dine for alle språk, slik eg har gjort med t.d. lemmagenereringstestskripta.

albbas commented 7 years ago

Comment 12193

Date: 2017-03-14 16:55:44 +0100 From: Lene Antonsen <>

Jeg har diskutert litt med Trond no, for å vite hvilke planer han har. Jeg har følgende tanker: Skriptet for sme er veldig sme-orientert, de andre språkene er mye enklere, og man kan gjøre dette enklere. Jeg foreslår at istedenfor å kopiere/tilpasse sme til de andre språkene, så lager vi et nytt skript, fra blanke ark, men som bygger på erfaringer vi har. Men for sme beholder vi inntil videre det gamle som er.

Testinga er for utvikling og skal derfor ikke inn i en make check, anna enn evt for å gi status om hvor stor diff det er. Dvs at det ikke skal stoppe anna testing.

Mine forslag for det nye skriptet:

albbas commented 7 years ago

Comment 12194

Date: 2017-03-14 17:00:49 +0100 From: Lene Antonsen <>

(In reply to Lene Antonsen from comment #8)

  • det skal bygges opp slik at vi kan bruke gullkorpuset for dis som utgangspunkt for syn, og dette igjen som grunnlag for dep

Dette betyr at vi må beholde alle tagger, også +Err/Orth, +Err/Lex og +Sem-tagger, fordi de trenges i neste steg. Dagens sme-skript fjerner disse.

albbas commented 7 years ago

Comment 12195

Date: 2017-03-14 17:04:10 +0100 From: Lene Antonsen <>

Kanskje vi ikke trenger tre steg, men at vi kan da alle i ett? Dvs teste dis, syn og dep under ett?

albbas commented 7 years ago

Comment 12196

Date: 2017-03-14 17:06:00 +0100 From: Lene Antonsen <>

(In reply to Lene Antonsen from comment #10)

Kanskje vi ikke trenger tre steg, men at vi kan da alle i ett? Dvs teste dis, syn og dep under ett?

Kanskje beholde to steg: dis + syn og så dep, fordi flere tagger endres der.

albbas commented 7 years ago

Comment 12572

Date: 2017-09-15 08:52:49 +0200 From: Sjur Nørstebø Moshagen <>

No har vi ei god stund hatt verkty som ganske bra svarar til det som er diskutert her:

devtools/check_analysis_regressions.sh

Verktyet kan køyrast i fleire ulike modus, alt etter kva ein vil testa. -h viser hjelptekst:

$ ./devtools/check_analysis_regressions.sh -h Usage: ./devtools/check_analysis_regressions.sh OPTION [MORE OPTIONS...]

Check whether there are regressions in the analysis output by analysing a corpus in several ways and comparing to the previous version. The input corpus used is found in $GIELLA_LANG/test/data/analysis_check_corpus.txt. The previous analyses under version controll are stored in the same directory.

You need to specify at least one of the diff options.

-h, --help Print this usage info -c, --corpus CORPUS Specify the corpus to be used as input. Optional, defaults to: se/test/data/analysis_check_corpus.txt -dm, --diff-morpha Open a graphical diff view for the morphological analyses -dd, --diff-disamb Open a graphical diff view for the disambiguated analyses -df, --diff-functn Open a graphical diff view for the syntactic function analyses -de, --diff-depend Open a graphical diff view for the dependency analyses -dh, --diff-hfsttok Open a graphical diff view with differences between the old-style preprocess + lookup + lookup2cg using an HFST analyser vs the new hfst-tokenise tokenise-and-lookup in one go. This option has an effect only when both hfst and tokenisers are enabled. -dx, --diff-xeroxtok Open a graphical diff view with differences between the old-style preprocess + lookup + lookup2cg using a XEROX analyser vs the new hfst-tokenise tokenise-and-lookup in one go. This option has an effect only when both Xerox, hfst and tokenisers are enabled.

Eg avsluttar denne som fiksa.