mideind / Tokenizer

A tokenizer for Icelandic text
Other
27 stars 6 forks source link

UnboundLocalError: local variable 'unit' referenced before assignment #12

Closed HaukurPall closed 4 years ago

HaukurPall commented 4 years ago

I was tokenizing the ParIce dataset when I encountered an error:

UnboundLocalError: local variable 'unit' referenced before assignment. tokenizer.py:1455

There are quite a few sentences which will cause this error, here is an example: test = "framkvæmdastjórnin skal einnig birta skýrslu um framvindu framkvæmdarinnar byggða á yfirlitsskýrslum, sem aðildarríki leggja fram skv2mgr15gr., og leggja hana fyrir evrópuþingið og aðildarríkin eigi síðar en tveimur árum eftir dagsetningarnar sem um getur í 5og 8gr."

This segment can be found on line 3254414 in the ees.tmx:

Framkvæmdastjórnin skal einnig birta skýrslu um framvindu framkvæmdarinnar byggða á yfirlitsskýrslum, sem aðildarríki leggja fram skv2mgr15gr., og leggja hana fyrir Evrópuþingið og aðildarríkin eigi síðar en tveimur árum eftir dagsetningarnar sem um getur í 5og 8gr.

The text is clearly broken, but looking at the code, the error still seems to be valid.

vthorsteinsson commented 4 years ago

Thanks for the input - there was indeed a bug in the code, which has been fixed in Tokenizer 2.0.1.