Closed albbas closed 7 years ago
Date: 2017-03-13 14:51:21 +0100
From: Trond Trosterud <
I dag har vi det oppsettet Lene har laga for nordsamisk gullkorpus for CG.
Dette vil eg gjerne lage ein generalisert versjon av, for alle språk.
Date: 2017-03-14 14:15:43 +0100
From: Sjur Nørstebø Moshagen <
Eg går ut frå at det er dette testskriptet du tenkjer på:
langs/sme/test/src/syntax/disambiguation_developertest.sh
Date: 2017-03-14 14:18:27 +0100
From: Sjur Nørstebø Moshagen <
Kort spørsmål: om det er slik at dette skriptet aldri går i null (dvs det vil alltid vera diffar mellom førre og ny versjon), så bør ikkje skriptet inn i make check. Då vil det vera rimeleg å leggja eit slikt skript i sme/devtools/ (fordi det er eit verkty for utviklarane/lingvistane) heller enn i test/src/syntax/ - alle testane under test/ er tenkt å vera ein del av 'make check'.
Kva trur de?
Date: 2017-03-14 14:21:14 +0100
From: Lene Antonsen <
Nei, dette skal ikke inn i make check.
Hvis vi skal ha noe inn i make check, så bør det bare være noen får testsetninger for å sjekke at pipeline fungerer.
Date: 2017-03-14 14:29:43 +0100
From: Sjur Nørstebø Moshagen <
Kva er skilnaden på desse tre:
langs/sme/test/src/syntax/: disambiguation_developertest.sh syntax_developertest.sh testfunctions.sh
Date: 2017-03-14 14:36:57 +0100
From: Lene Antonsen <
Hvis Trond synes det er ok, så kan jeg heller legge dem til for de språkene som er aktuelle. Jeg vil foretrekke at de er leselige for meg, siden det stort sett er jeg som følger med og oppdaterer disse.
Date: 2017-03-14 14:41:38 +0100
From: Sjur Nørstebø Moshagen <
(In reply to Lene Antonsen from comment #3)
Nei, dette skal ikke inn i make check.
Hvis vi skal ha noe inn i make check, så bør det bare være noen får testsetninger for å sjekke at pipeline fungerer.
Dvs noko i stil med:
$GTHOME/langs/sme/test/data/inputCGtest.txt
som er brukt av:
langs/sme/test/src/syntax/testfunctions.sh
?
Date: 2017-03-14 14:43:52 +0100
From: Sjur Nørstebø Moshagen <
(In reply to Lene Antonsen from comment #5)
Hvis Trond synes det er ok, så kan jeg heller legge dem til for de språkene som er aktuelle. Jeg vil foretrekke at de er leselige for meg, siden det stort sett er jeg som følger med og oppdaterer disse.
Trond ba meg gjera dette pga reisa til Russland neste veke, og ut i frå ein tanke om at desse skripta vil vera til nytte for alle språk.
Du kan sjølvsagt halda dine versjonar, men tanken var å generalisera skripta dine for alle språk, slik eg har gjort med t.d. lemmagenereringstestskripta.
Date: 2017-03-14 16:55:44 +0100
From: Lene Antonsen <
Jeg har diskutert litt med Trond no, for å vite hvilke planer han har. Jeg har følgende tanker: Skriptet for sme er veldig sme-orientert, de andre språkene er mye enklere, og man kan gjøre dette enklere. Jeg foreslår at istedenfor å kopiere/tilpasse sme til de andre språkene, så lager vi et nytt skript, fra blanke ark, men som bygger på erfaringer vi har. Men for sme beholder vi inntil videre det gamle som er.
Testinga er for utvikling og skal derfor ikke inn i en make check, anna enn evt for å gi status om hvor stor diff det er. Dvs at det ikke skal stoppe anna testing.
Mine forslag for det nye skriptet:
Date: 2017-03-14 17:00:49 +0100
From: Lene Antonsen <
(In reply to Lene Antonsen from comment #8)
- det skal bygges opp slik at vi kan bruke gullkorpuset for dis som utgangspunkt for syn, og dette igjen som grunnlag for dep
Dette betyr at vi må beholde alle tagger, også +Err/Orth, +Err/Lex og +Sem-tagger, fordi de trenges i neste steg. Dagens sme-skript fjerner disse.
Date: 2017-03-14 17:04:10 +0100
From: Lene Antonsen <
Kanskje vi ikke trenger tre steg, men at vi kan da alle i ett? Dvs teste dis, syn og dep under ett?
Date: 2017-03-14 17:06:00 +0100
From: Lene Antonsen <
(In reply to Lene Antonsen from comment #10)
Kanskje vi ikke trenger tre steg, men at vi kan da alle i ett? Dvs teste dis, syn og dep under ett?
Kanskje beholde to steg: dis + syn og så dep, fordi flere tagger endres der.
Date: 2017-09-15 08:52:49 +0200
From: Sjur Nørstebø Moshagen <
No har vi ei god stund hatt verkty som ganske bra svarar til det som er diskutert her:
devtools/check_analysis_regressions.sh
Verktyet kan køyrast i fleire ulike modus, alt etter kva ein vil testa. -h viser hjelptekst:
$ ./devtools/check_analysis_regressions.sh -h Usage: ./devtools/check_analysis_regressions.sh OPTION [MORE OPTIONS...]
Check whether there are regressions in the analysis output by analysing a corpus in several ways and comparing to the previous version. The input corpus used is found in $GIELLA_LANG/test/data/analysis_check_corpus.txt. The previous analyses under version controll are stored in the same directory.
You need to specify at least one of the diff options.
-h, --help Print this usage info -c, --corpus CORPUS Specify the corpus to be used as input. Optional, defaults to: se/test/data/analysis_check_corpus.txt -dm, --diff-morpha Open a graphical diff view for the morphological analyses -dd, --diff-disamb Open a graphical diff view for the disambiguated analyses -df, --diff-functn Open a graphical diff view for the syntactic function analyses -de, --diff-depend Open a graphical diff view for the dependency analyses -dh, --diff-hfsttok Open a graphical diff view with differences between the old-style preprocess + lookup + lookup2cg using an HFST analyser vs the new hfst-tokenise tokenise-and-lookup in one go. This option has an effect only when both hfst and tokenisers are enabled. -dx, --diff-xeroxtok Open a graphical diff view with differences between the old-style preprocess + lookup + lookup2cg using a XEROX analyser vs the new hfst-tokenise tokenise-and-lookup in one go. This option has an effect only when both Xerox, hfst and tokenisers are enabled.
Eg avsluttar denne som fiksa.
This issue was created automatically with bugzilla2github
Bugzilla Bug 2356
Date: 2017-03-13T14:51:21+01:00 From: Trond Trosterud <>
To: Sjur Nørstebø Moshagen <>
CC: lene.antonsen, linda.wiechetek, sjur.n.moshagen, thomas.omma, trond.trosterud
Last updated: 2017-09-15T08:52:49+02:00