Closed albbas closed 6 years ago
Date: 2018-05-07 08:48:23 +0200
From: Lene Antonsen <
Analysen fungerer i sme, men ikke i sma. Jeg klarer ikke å finne ut hvorfor.
echo Karijuse: «Mij dellie?» | hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sma/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
" |
---|
"<>"
"«" PUNCT LEFT
Sammenlikning: Hvis jeg analyserer samme setninga med sme, får jeg riktig analyse.
echo Karijuse: «Mij dellie?» | hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
" |
---|
"<«>"
"«" PUNCT LEFT
Date: 2018-08-28 17:19:08 +0200
From: Sjur Nørstebø Moshagen <
No er det betre, sjølv om det ikkje er heilt bra enno:
"
Date: 2018-08-28 17:32:46 +0200
From: Sjur Nørstebø Moshagen <
Kevin - eg får ikkje « til å fungera i sma, sjølv om den same koden fungerer i sme, jamfør desse to døma:
$ echo Karijuse: «Mij dellie?» | hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
" |
---|
"
$ echo Karijuse: « | hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
" |
---|
"<«>"
"«" PUNCT LEFT
Skilnaden er altså berre at « får tekst rett etter seg i det fyrste dømet, og ingen ting (dvs lineskift) i det andre. I det fyrste dømet blir « skjerma som noko som ikkje skal analyserast, i det andre får det ein vanleg (og venta analyse). pmskripta er etter det eg kan sjå like, det same er den relevante lexc-koden etter det eg kan sjå.
Date: 2018-08-29 12:47:22 +0200 From: @unhammer@fsfe.org
Dette verkar veldig kjent … Blir «/» brukt som midlertidige symbol mellom lexc og twol til å markera …eittelleranna…?
Date: 2018-08-29 13:01:05 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Kevin Brubeck Unhammer from comment #3)
Dette verkar veldig kjent … Blir «/» brukt som midlertidige symbol mellom lexc og twol til å markera …eittelleranna…?
Jepp, det blir dei. I alle språk blir « og » brukt internt for å markera morfemgrense for derivasjonar: « for prefiksderivasjon, og » for suffiksderivasjon. Det er ikkje alle språk som nyttar desse i praksis, og for samiske språk er det ingen prefiksderivasjon (eller i det heile prefiksmorfologi).
Date: 2018-08-31 09:29:48 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Sjur Nørstebø Moshagen from comment #4)
(In reply to Kevin Brubeck Unhammer from comment #3)
Dette verkar veldig kjent … Blir «/» brukt som midlertidige symbol mellom lexc og twol til å markera …eittelleranna…?
Jepp, det blir dei. I alle språk blir « og » brukt internt for å markera morfemgrense for derivasjonar: « for prefiksderivasjon, og » for suffiksderivasjon. Det er ikkje alle språk som nyttar desse i praksis, og for samiske språk er det ingen prefiksderivasjon (eller i det heile prefiksmorfologi).
Eg prøvde å så av alignment i hfst-lexc (som i dette tilfellet truleg vil føra til splitting av symbolpar, fordi symbola ikkje er like på kvar side), men det hjelpte ikkje:
hfst-traverse src/analyser-disamb-gt-desc.hfst traverse> « On path `«:@_EPSILONSYMBOL@ ' are continuations: @_EPSILONSYMBOL@ «
Dvs resultatet er det same både med og utan symbolpar-synkronisering.
Eg ser to moglege løysingar på dette:
1) hfst-tokenise blir betre på tokenisering av slike A:0 0:A sekvensar 2) vi ber hfst-gjengen om å laga eit nytt verkty hfst-realign som endrar sekvensar av typen A:0 0:A til A:A
2) vil ha ein verdi uavhengig av hfst-tokenise, fordi det vil gjera fst-ane litt mindre og raskare (ikkje mykje, reknar eg med, men likevel... :-)
Date: 2018-08-31 11:36:08 +0200 From: @unhammer@fsfe.org
(In reply to Sjur Nørstebø Moshagen from comment #5)
Eg ser to moglege løysingar på dette:
1) hfst-tokenise blir betre på tokenisering av slike A:0 0:A sekvensar 2) vi ber hfst-gjengen om å laga eit nytt verkty hfst-realign som endrar sekvensar av typen A:0 0:A til A:A
2) vil ha ein verdi uavhengig av hfst-tokenise, fordi det vil gjera fst-ane litt mindre og raskare (ikkje mykje, reknar eg med, men likevel... :-)
Ein hfst-realign hadde vore veldig greitt å ha, ja.
Eg trur hfst-tokenise ville fått til problemet viss me fekk lov til å definera blankteikn som [ Punct:? 0:? ], men det får kompileringa til å henga opp: https://github.com/hfst/hfst/issues/399
Date: 2018-09-03 16:35:34 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Kevin Brubeck Unhammer from comment #6)
Ein hfst-realign hadde vore veldig greitt å ha, ja.
Date: 2018-10-09 00:09:38 +0200
From: Sjur Nørstebø Moshagen <
Denne er no fiksa:
$ echo Karijuse: «Mij dellie?» | hfst-tokenize --giella-cg --weight-classes=1 tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
" |
---|
"<«>"
"«" PUNCT LEFT
This issue was created automatically with bugzilla2github
Bugzilla Bug 2468
Date: 2018-05-07T08:48:23+02:00 From: Lene Antonsen <>
To: Sjur Nørstebø Moshagen <>
CC: lene.antonsen, maja.l.kappfjell, sjur.n.moshagen, thomas.omma, trond.trosterud, @unhammer@fsfe.org
Last updated: 2018-10-09T00:09:38+02:00