mideind / Tokenizer

A tokenizer for Icelandic text
Other
27 stars 6 forks source link

Bandstrik skilin frá orði #15

Closed starkadur closed 4 years ago

starkadur commented 4 years ago

Í núverandi mynd slítur tókarinn bandstrik frá orði ef bandsrikið er í lok orðs: félags - og menntamálaráðherra.

Okkur hjá Árnastofnun þætti betra ef þetta væri ekki gert og úttakið væri: félags- og menntamálaráðherra

vthorsteinsson commented 4 years ago

Við getum ekki endurskapað þetta eins og því er lýst, sbr.:

>>>> import tokenizer
>>>> list(tokenizer.tokenize("Ég talaði við félags- og menntamálaráðherra."))
[Tok(kind=11001, txt=None, val=(0, None)), Tok(kind=6, txt='Ég', val=None), Tok(kind=6, txt='talaði', val=None), Tok(kind=6, txt='við', val=None), Tok(kind=6, txt='félags- og menntamálaráðherra', val=None), Tok(kind=1, txt='.', val=(3, '.')), Tok(kind=11002, txt=None, val=None)]
>>>>