giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

Handteringa av tvetydig setningsinndeling og abbr (Bugzilla Bug 2507) #462

Open albbas opened 6 years ago

albbas commented 6 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2507

Date: 2018-09-25T12:49:59+02:00 From: Sjur Nørstebø Moshagen <> To: Linda Wiechetek <> CC: borre.gaup, chiara.argese, ciprian.gerstenberger, elena.j.paulsen, lene.antonsen, linda.wiechetek, maja.l.kappfjell, thomas.omma, trond.trosterud, unhammer+apertium

Last updated: 2019-08-21T16:08:47+02:00

albbas commented 6 years ago

Comment 12967

Date: 2018-09-25 12:49:59 +0200 From: Sjur Nørstebø Moshagen <>

I rev 171280 har eg sjekka inn endringar som gjer at abbr-analysene i sma no er tvetydig med tanke på punktum, for slike som kan ta punktum som ein del av avstyttinga. Eit døme er jnv, t.d. i denne setninga:

tjihtesh mejtie Gustav Kappfjell tjaaleme jnv. Dejnie giesiekuvsjine aaj derhviegåetieprosjeektem utnimh.

Etter den nemnde innsjekkinga får eg slik analyse frå hfst-tokenise -g -u -l1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst:

"" "tjaeledh" V TV PrfPrc : "" "jnv" Adv ABBR Gram/IAbbr "." PUNCT Use/Disamb "<.>" "jnv" Adv ABBR Gram/IAbbr "" : "" "dah" Pron Pers Pl3 Ine "dïhte" Pron Dem Pl Ine "dïhte" Pron Dem Sg Com "dïhte" Pron Pers Sg3 Com

Dvs at no har vi all informasjon vi treng for å få ei regelbasert disambiguering av slike punktum, og dermed meir robust identifisering av setningsgrenser.

Neste steg er å abeida med tools/tokenisers/mwe-dis.cg3, slik at vi faktisk får den segmenteringa vi skal ha - det får vi ikkje enno (... | vislcg3 -t -g tools/tokenisers/mwe-dis.cg3):

"" "tjaeledh" V TV PrfPrc : "" "jnv" Adv ABBR Gram/IAbbr ; "." PUNCT Use/Disamb "<.>" ; "jnv" Adv ABBR Gram/IAbbr "" REMOVE:2004:longest-match :

"" "dah" Pron Pers Pl3 Ine "dïhte" Pron Dem Pl Ine "dïhte" Pron Dem Sg Com "dïhte" Pron Pers Sg3 Com

NB! Eg har ikkje lagt inn backtrack-analyse av ordenstal, så det er enno mange andre tilfelle av feil segmentering og setningsinndeling.

For å sjekka skilnaden mellom trad og ny segmentering + analyse kan ein gå fram slik i sma (sma fordi det er der eg har lagt til koden, og fordi sma er ganske rask å kompilera):

./configure --without-xfst --with-hfst --enable-tokeniers make -j ./devtools/check_analysis_regressions.sh -dh

Eg har i tillegg oppdatert skriptet check_analysis_regressions.sh i dag slik at det ignorerer skilnader i analyse av dynamiske samansetjingar (som ikkje er ein relevant skilnad mellom gamal og ny analyse). Med det korpuset eg har for sma er det pr no 1288 skilnader.

albbas commented 6 years ago

Comment 12968

Date: 2018-09-25 14:17:53 +0200 From: Lene Antonsen <>

Jeg legger til Chiara som CC, hun arbeider med Konteaksta og tokeniseringa er viktig også for hennes arbeid.

Det er viktig at det ikke blir lagt til et ekstra punktum, da blir det problemer når man skal legge analysen tilbake på websiden, men så vidt jeg forstår, så er ikke dette tilfelle her. Det ekstra punktumet kommer bare i lemma.

"" "jnv" Adv ABBR Gram/IAbbr ; "." PUNCT Use/Disamb "<.>" ; "jnv" Adv ABBR Gram/IAbbr ""

Men hvordan blir det videre i CG etter mwe-disambigueringa? Skal da tagg/lemma brukes som setningsdelimiter?

I dag har vi disse, og da er 'sent' en tagg.

DELIMITERS = "<.>" "<!>" "<?>" "<...>" "<¶>" "<..>" "<!.>" "<?.>" "<¶.>" "<❡>" (sent) sent ;

albbas commented 6 years ago

Comment 12969

Date: 2018-09-25 16:33:42 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Det er viktig at det ikke blir lagt til et ekstra punktum, da blir det problemer når man skal legge analysen tilbake på websiden,

Dette er òg viktig for grammatikkontrollen, og bør vera rettleiande for alt vi gjer - vi skal ikkje leggja til nye teikn, det skal vera mogleg å rekonstuera originalteksten ned til siste mellomrom ut frå det vi sender til og får ut frå CG-en.

men så vidt jeg forstår, så er ikke dette tilfelle her.

Nei.

Det ekstra punktumet kommer bare i lemma.

"" "jnv" Adv ABBR Gram/IAbbr ; "." PUNCT Use/Disamb "<.>" ; "jnv" Adv ABBR Gram/IAbbr ""

Etter mwe-disambigueringa kjem cg-mwesplit, som skriv om heile kohorten etter at disambigueringa har bestemt kva for variant vi vil ha. Så om resulltatet etter disambiguering er:

"" ; "jnv" Adv ABBR Gram/IAbbr "." PUNCT Use/Disamb "<.>" "jnv" Adv ABBR Gram/IAbbr ""

så blir kohorten skrive om til to kohortar slik:

"" "jnv" Adv ABBR Gram/IAbbr "<.>" "." PUNCT Use/Disamb

Dvs at "<.>" blir fanga opp av DELIMITERS i neste cg-fil, og alt burde fungera som det er meint.

albbas commented 5 years ago

Comment 13057

Date: 2018-10-24 12:46:49 +0200 From: Sjur Nørstebø Moshagen <>

Eg er ferdig med min del, no må andre ta over. Det er nærmast lingvistisk arbeid som står att. I og med at dette er felles arbeid for disamb og gramcheck, så sender eg dette over til Linda/Duommá. Eg set Linda som andsvarleg (kan ha berre ein).

albbas commented 5 years ago

Comment 13631

Date: 2019-08-21 16:08:47 +0200 From: Linda Wiechetek <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#1)

Jeg legger til Chiara som CC, hun arbeider med Konteaksta og tokeniseringa er viktig også for hennes arbeid.

Det er viktig at det ikke blir lagt til et ekstra punktum, da blir det problemer når man skal legge analysen tilbake på websiden, men så vidt jeg forstår, så er ikke dette tilfelle her. Det ekstra punktumet kommer bare i lemma.

"" "jnv" Adv ABBR Gram/IAbbr ; "." PUNCT Use/Disamb "<.>" ; "jnv" Adv ABBR Gram/IAbbr ""

Men hvordan blir det videre i CG etter mwe-disambigueringa? Skal da tagg/lemma brukes som setningsdelimiter?

I dag har vi disse, og da er 'sent' en tagg.

DELIMITERS = "<.>" "<!>" "<?>" "<...>" "<¶>" "<..>" "<!.>" "<?.>" "<¶.>" "<❡>" (sent) sent ;

I sme har vi følgende:

SOFT-DELIMITERS = "<,>" ; DELIMITERS = "<.>" "<!>" "<?>" "<...>" "<¶>";