Позволяет разбивать текст в любых кодировках на последовательность токенов.
$ git clone https://github.com/alesapin/rutok
$ cd rutok
$ git submodule update --init --recursive
& mkdir build && cd build
$ cmake ..
$ make -j `nproc`
$ programs/rutok --sentence
мама мыла раму.
[мама, WORD, CYRILLIC, LOWER_CASE]
[ , SEPARATOR]
[мыла, WORD, CYRILLIC, LOWER_CASE]
[ , SEPARATOR]
[раму, WORD, CYRILLIC, LOWER_CASE]
[., PUNCT, CAN_TERMINATE_SENTENCE, SENTENCE_END]
[\n, SEPARATOR, CAN_TERMINATE_PARAGRAPH]
$ git clone https://github.com/alesapin/rutok
$ cd rutok
$ git submodule update --init --recursive
$ sudo pip install .