Open albbas opened 5 years ago
Date: 2018-09-26 11:30:34 +0200
From: Lene Antonsen <
Dette gjelder U+F06E (? inne i firkant)
Jeg har prøvd å legge til i tokeniser-disamb-gt-desc.pmscript, se nederst i denne meldinga, men det hjalp ikke.
En annen ting er at dette symbolet vel bør legges til i felles punctuation fil, men jeg lurer likevel på hvorfor den ikke blir gjenkjent av HFST.
echo 'doppe bohtet'|hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst
"
echo 'doppe bohtet'|preprocess --abbr=tools/tokenisers/abbr.txt |usmedis doppe doppe+Adv+Sem/Plc
+?
bohtet boahtit+V+IV+Ind+Prs+Pl3 bohtet boahtit+V+IV+Ind+Prt+Sg2 bohtet boahtit+V+IV+Imprt+Pl2 bohtet bohtat+V+IV+Ind+Prs+Pl3
--- trunk/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmscript 2018-09-21 10:06:17 UTC (rev 171127) +++ trunk/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmscript 2018-09-21 10:09:22 UTC (rev 171128) @@ -38,7 +38,7 @@ Define url @bin"analyser-url-gt-desc.hfst" ; -Define incondform Punct|{“}|{”}|{…}|{‚}|{‘}|{’}|{–}|{—}|{}|{}|{<}|{>}|{■}|{«}|{»}|{�}|{@}|{'} ; +Define incondform Punct|{“}|{”}|{…}|{‚}|{‘}|{’}|{–}|{-}|{—}|{}|{}|{<}|{>}|{■}|{«}|{»}|{�}|{@}|{'}|{} ;
Date: 2018-10-01 09:28:35 +0200
From: Trond Trosterud <
U0E000 til og med U+F8E4 er ein del av Unicodes private use area, dvs. her kan folk som vil gjere sine private ting lage eigne kodetabellar. For oss er : ein bra analyse, dvs. vi listar opp teiknet, men analyserer det ikkje.
Date: 2018-10-01 09:31:16 +0200
From: Trond Trosterud <
Slik eg ser det er dermed : ("vi ignorerer dette symbolet") ein betre analyse enn +? ("dette er eit symbol vi ikkje kjenner att"). Eg føreslår at vi er glad for at hfst-prosesseringa fungerer slik og lukkar buggen.
Date: 2018-10-01 11:56:25 +0200
From: Lene Antonsen <
Eg føreslår at vi er glad for
at hfst-prosesseringa fungerer slik og lukkar buggen.
Før vi lukker buggen vil jeg se litt på om vi trenger symbolet for å få en syntaktisk analyse. Det er frekvent, og det innleder ofte setningsfragmenter, tror jeg.
Date: 2018-10-08 23:50:08 +0200
From: Sjur Nørstebø Moshagen <
(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#3)
Eg føreslår at vi er glad for at hfst-prosesseringa fungerer slik og lukkar buggen.
Før vi lukker buggen vil jeg se litt på om vi trenger symbolet for å få en syntaktisk analyse. Det er frekvent, og det innleder ofte setningsfragmenter, tror jeg.
Eg trur det er MS Word som nyttar denne koden for eigne teikn/symbol i punklister. Det forklarar kvifor det er "private use" (teiknet er ikkje ein standard del av Unicode), og samtidig kvifor det ofte er innleiing på setningsfragment.
Dersom denne hypotesa stemmer, så føreslår eg at vi heller konverterer teiknet som ein del av korpuskonverteringa til eit standard punktlistesymbol - det vil vera lesbart, og ha same syntaktiske funksjon, og vi slepp tullet med private use.
— Eg testa i Word, og der vart teiknet synleg, som ein litt avrunda V. Dvs ikkje listesymbol (truleg), men uansett Word-spesifikt. Eg held fast ved forslaget mitt om at vi byter det ut med noko anna passande i korpuskonverteringa.
Kva seier du, Børre?
Date: 2018-10-09 07:38:23 +0200
From: Børre Gaup <
(In reply to Sjur Nørstebø Moshagen from comment giellalt/bugzilla-dummy#4)
(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#3)
Eg føreslår at vi er glad for at hfst-prosesseringa fungerer slik og lukkar buggen.
Før vi lukker buggen vil jeg se litt på om vi trenger symbolet for å få en syntaktisk analyse. Det er frekvent, og det innleder ofte setningsfragmenter, tror jeg.
Lene har rett, dette er vanligvis ofte punktmerker som innleder setningsfraser, ja.
Eg trur det er MS Word som nyttar denne koden for eigne teikn/symbol i punklister. Det forklarar kvifor det er "private use" (teiknet er ikkje ein standard del av Unicode), og samtidig kvifor det ofte er innleiing på setningsfragment.
Dersom denne hypotesa stemmer, så føreslår eg at vi heller konverterer teiknet som ein del av korpuskonverteringa til eit standard punktlistesymbol
- det vil vera lesbart, og ha same syntaktiske funksjon, og vi slepp tullet med private use.
— Eg testa i Word, og der vart teiknet synleg, som ein litt avrunda V. Dvs ikkje listesymbol (truleg), men uansett Word-spesifikt. Eg held fast ved forslaget mitt om at vi byter det ut med noko anna passande i korpuskonverteringa.
Kva seier du, Børre?
Det høres ut som en bra plan, ja.
Date: 2018-10-24 13:12:55 +0200
From: Sjur Nørstebø Moshagen <
Eg sender denne vidare til Børre, i og med at det no handlar om korpuskonvertering.
This issue was created automatically with bugzilla2github
Bugzilla Bug 2511
Date: 2018-09-26T11:30:34+02:00 From: Lene Antonsen <>
To: Børre Gaup <>
CC: borre.gaup, ciprian.gerstenberger, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud
Last updated: 2018-10-24T13:12:55+02:00