giellalt / lang-sme

Finite state and Constraint Grammar based analysers and proofing tools, and language resources for the Northern Sami language
https://giellalt.uit.no
GNU General Public License v3.0
6 stars 1 forks source link

tegn som ikke blir gjenkjent som missing (Bugzilla Bug 2511) #460

Open albbas opened 5 years ago

albbas commented 5 years ago

This issue was created automatically with bugzilla2github

Bugzilla Bug 2511

Date: 2018-09-26T11:30:34+02:00 From: Lene Antonsen <> To: Børre Gaup <> CC: borre.gaup, ciprian.gerstenberger, lene.antonsen, sjur.n.moshagen, thomas.omma, trond.trosterud

Last updated: 2018-10-24T13:12:55+02:00

albbas commented 5 years ago

Comment 12974

Date: 2018-09-26 11:30:34 +0200 From: Lene Antonsen <>

Dette gjelder U+F06E (? inne i firkant)

Jeg har prøvd å legge til i tokeniser-disamb-gt-desc.pmscript, se nederst i denne meldinga, men det hjalp ikke.

En annen ting er at dette symbolet vel bør legges til i felles punctuation fil, men jeg lurer likevel på hvorfor den ikke blir gjenkjent av HFST.

echo 'doppe  bohtet'|hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst "" "doppe" Adv Sem/Plc :  "" "boahtit" V IV Imprt Pl2 "boahtit" V IV Ind Prs Pl3 "boahtit" V IV Ind Prt Sg2 "bohtat" V IV Imprt Pl2 "bohtat" V IV Ind Prs Pl3 "bohtat" V IV Ind Prt Sg2 :\n

echo 'doppe  bohtet'|preprocess --abbr=tools/tokenisers/abbr.txt |usmedis doppe doppe+Adv+Sem/Plc

  +?

bohtet boahtit+V+IV+Ind+Prs+Pl3 bohtet boahtit+V+IV+Ind+Prt+Sg2 bohtet boahtit+V+IV+Imprt+Pl2 bohtet bohtat+V+IV+Ind+Prs+Pl3

Modified: trunk/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmscript

--- trunk/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmscript 2018-09-21 10:06:17 UTC (rev 171127) +++ trunk/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmscript 2018-09-21 10:09:22 UTC (rev 171128) @@ -38,7 +38,7 @@ Define url @bin"analyser-url-gt-desc.hfst" ; -Define incondform Punct|{“}|{”}|{…}|{‚}|{‘}|{’}|{–}|{—}|{­}|{}|{<}|{>}|{■}|{«}|{»}|{�}|{@}|{'} ; +Define incondform Punct|{“}|{”}|{…}|{‚}|{‘}|{’}|{–}|{-}|{—}|{­}|{}|{<}|{>}|{■}|{«}|{»}|{�}|{@}|{'}|{} ;

albbas commented 5 years ago

Comment 13011

Date: 2018-10-01 09:28:35 +0200 From: Trond Trosterud <>

U0E000 til og med U+F8E4 er ein del av Unicodes private use area, dvs. her kan folk som vil gjere sine private ting lage eigne kodetabellar. For oss er :  ein bra analyse, dvs. vi listar opp teiknet, men analyserer det ikkje.

albbas commented 5 years ago

Comment 13012

Date: 2018-10-01 09:31:16 +0200 From: Trond Trosterud <>

Slik eg ser det er dermed :  ("vi ignorerer dette symbolet") ein betre analyse enn   +? ("dette er eit symbol vi ikkje kjenner att"). Eg føreslår at vi er glad for at hfst-prosesseringa fungerer slik og lukkar buggen.

albbas commented 5 years ago

Comment 13013

Date: 2018-10-01 11:56:25 +0200 From: Lene Antonsen <>

Eg føreslår at vi er glad for

at hfst-prosesseringa fungerer slik og lukkar buggen.

Før vi lukker buggen vil jeg se litt på om vi trenger symbolet for å få en syntaktisk analyse. Det er frekvent, og det innleder ofte setningsfragmenter, tror jeg.

albbas commented 5 years ago

Comment 13043

Date: 2018-10-08 23:50:08 +0200 From: Sjur Nørstebø Moshagen <>

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#3)

Eg føreslår at vi er glad for at hfst-prosesseringa fungerer slik og lukkar buggen.

Før vi lukker buggen vil jeg se litt på om vi trenger symbolet for å få en syntaktisk analyse. Det er frekvent, og det innleder ofte setningsfragmenter, tror jeg.

Eg trur det er MS Word som nyttar denne koden for eigne teikn/symbol i punklister. Det forklarar kvifor det er "private use" (teiknet er ikkje ein standard del av Unicode), og samtidig kvifor det ofte er innleiing på setningsfragment.

Dersom denne hypotesa stemmer, så føreslår eg at vi heller konverterer teiknet som ein del av korpuskonverteringa til eit standard punktlistesymbol - det vil vera lesbart, og ha same syntaktiske funksjon, og vi slepp tullet med private use.

— Eg testa i Word, og der vart teiknet synleg, som ein litt avrunda V. Dvs ikkje listesymbol (truleg), men uansett Word-spesifikt. Eg held fast ved forslaget mitt om at vi byter det ut med noko anna passande i korpuskonverteringa.

Kva seier du, Børre?

albbas commented 5 years ago

Comment 13048

Date: 2018-10-09 07:38:23 +0200 From: Børre Gaup <>

(In reply to Sjur Nørstebø Moshagen from comment giellalt/bugzilla-dummy#4)

(In reply to Lene Antonsen from comment giellalt/bugzilla-dummy#3)

Eg føreslår at vi er glad for at hfst-prosesseringa fungerer slik og lukkar buggen.

Før vi lukker buggen vil jeg se litt på om vi trenger symbolet for å få en syntaktisk analyse. Det er frekvent, og det innleder ofte setningsfragmenter, tror jeg.

Lene har rett, dette er vanligvis ofte punktmerker som innleder setningsfraser, ja.

Eg trur det er MS Word som nyttar denne koden for eigne teikn/symbol i punklister. Det forklarar kvifor det er "private use" (teiknet er ikkje ein standard del av Unicode), og samtidig kvifor det ofte er innleiing på setningsfragment.

Dersom denne hypotesa stemmer, så føreslår eg at vi heller konverterer teiknet som ein del av korpuskonverteringa til eit standard punktlistesymbol

  • det vil vera lesbart, og ha same syntaktiske funksjon, og vi slepp tullet med private use.

— Eg testa i Word, og der vart teiknet synleg, som ein litt avrunda V. Dvs ikkje listesymbol (truleg), men uansett Word-spesifikt. Eg held fast ved forslaget mitt om at vi byter det ut med noko anna passande i korpuskonverteringa.

Kva seier du, Børre?

Det høres ut som en bra plan, ja.

albbas commented 5 years ago

Comment 13059

Date: 2018-10-24 13:12:55 +0200 From: Sjur Nørstebø Moshagen <>

Eg sender denne vidare til Børre, i og med at det no handlar om korpuskonvertering.