Closed starkadur closed 4 years ago
Við getum ekki endurskapað þetta eins og því er lýst, sbr.:
>>>> import tokenizer
>>>> list(tokenizer.tokenize("Ég talaði við félags- og menntamálaráðherra."))
[Tok(kind=11001, txt=None, val=(0, None)), Tok(kind=6, txt='Ég', val=None), Tok(kind=6, txt='talaði', val=None), Tok(kind=6, txt='við', val=None), Tok(kind=6, txt='félags- og menntamálaráðherra', val=None), Tok(kind=1, txt='.', val=(3, '.')), Tok(kind=11002, txt=None, val=None)]
>>>>
Í núverandi mynd slítur tókarinn bandstrik frá orði ef bandsrikið er í lok orðs: félags - og menntamálaráðherra.
Okkur hjá Árnastofnun þætti betra ef þetta væri ekki gert og úttakið væri: félags- og menntamálaráðherra