giellalt / shared-smi

Shared Sámi lexical resources
GNU General Public License v3.0
2 stars 0 forks source link

Fjerne <cohort-with-dynamic-compound> fra korpusanalyse ( #8

Open albbas opened 5 years ago

albbas commented 5 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2529

Date: 2018-11-05T13:09:35+01:00 From: Lene Antonsen <> To: Sjur Nørstebø Moshagen <> CC: @argese.chiara@gmail.com, ciprian.gerstenberger, elena.j.paulsen, lene.antonsen, linda.wiechetek, sjur.n.moshagen, trond.trosterud

Last updated: 2018-11-06T10:30:00+01:00

albbas commented 5 years ago

Comment 13085

Date: 2018-11-05 13:09:35 +0100 From: Lene Antonsen <>

echo skuvlahistorjá|hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit "<skuvlahistorjá>" "skuvlahistorjá" N Sem/Domain Sg Nom

skal bare være synlig for grammarchecker, og ikke for korpusanalyse?
albbas commented 5 years ago

Comment 13088

Date: 2018-11-06 10:00:56 +0100 From: Lene Antonsen <>

Bug #2530 has been marked as a duplicate of this bug.

albbas commented 5 years ago

Comment 13089

Date: 2018-11-06 10:22:22 +0100 From: Sjur Nørstebø Moshagen <>

Denne taggen blir lagt til av ein CG-regel for å hjelpa andre CG-reglar med å identifisera samansette ord, inkl leksikaliserte samanetjingar. Vanlegvis vil info om samansetjing berre finnast i ei underlesing når ein nyttar hfst-tokenise, og regelen kopierer den infoen til hovudlesinga. Dermed har vi framleis den informasjonen sjølv etter at vi har fjerna lesingar med dynamisk samansetjing.

Taggen er nyttig i grammatikkontrollen, men eg kan òg tenkja meg at han kan ha nytte i korpussamanhang, fordi det gjer det mogleg å søkja etter (nesten) alle samansette ord, òg dei leksikaliserte.

Namnet på taggen kan vi sjølvsagt endra.

Eg trur ikkje dette eigentleg er mi lus, men ho kan liggja på meg til vi har fått ei betre forståing av kva vi vil i dei ulike samanhengane (gram.kontroll og korpus).

albbas commented 5 years ago

Comment 13091

Date: 2018-11-06 10:30:00 +0100 From: Ciprian Gerstenberger <>

Jeg har ingen problem det den for korpus, for tiden fjerner jeg den. Senere kan man legge til noe nyttig informasjon om ordsammensetting.