I was tokenizing the ParIce dataset when I encountered an error:
UnboundLocalError: local variable 'unit' referenced before assignment. tokenizer.py:1455
There are quite a few sentences which will cause this error, here is an example:
test = "framkvæmdastjórnin skal einnig birta skýrslu um framvindu framkvæmdarinnar byggða á yfirlitsskýrslum, sem aðildarríki leggja fram skv2mgr15gr., og leggja hana fyrir evrópuþingið og aðildarríkin eigi síðar en tveimur árum eftir dagsetningarnar sem um getur í 5og 8gr."
This segment can be found on line 3254414 in the ees.tmx:
Framkvæmdastjórnin skal einnig birta skýrslu um framvindu framkvæmdarinnar byggða á yfirlitsskýrslum, sem aðildarríki leggja fram skv2mgr15gr., og leggja hana fyrir Evrópuþingið og aðildarríkin eigi síðar en tveimur árum eftir dagsetningarnar sem um getur í 5og 8gr.
The text is clearly broken, but looking at the code, the error still seems to be valid.
I was tokenizing the ParIce dataset when I encountered an error:
There are quite a few sentences which will cause this error, here is an example:
test = "framkvæmdastjórnin skal einnig birta skýrslu um framvindu framkvæmdarinnar byggða á yfirlitsskýrslum, sem aðildarríki leggja fram skv2mgr15gr., og leggja hana fyrir evrópuþingið og aðildarríkin eigi síðar en tveimur árum eftir dagsetningarnar sem um getur í 5og 8gr."
This segment can be found on line 3254414 in the
ees.tmx
:The text is clearly broken, but looking at the code, the error still seems to be valid.