alesapin / rutok

MIT License
0 stars 0 forks source link

Build Status

Графематический анализатор для русского языка

Позволяет разбивать текст в любых кодировках на последовательность токенов.

Требования

Установка

CLI

$ git clone https://github.com/alesapin/rutok
$ cd rutok 
$ git submodule update --init --recursive
& mkdir build && cd build
$ cmake ..
$ make -j `nproc`
$ programs/rutok --sentence
мама мыла раму.
[мама, WORD, CYRILLIC, LOWER_CASE]
[ , SEPARATOR]
[мыла, WORD, CYRILLIC, LOWER_CASE]
[ , SEPARATOR]
[раму, WORD, CYRILLIC, LOWER_CASE]
[., PUNCT, CAN_TERMINATE_SENTENCE, SENTENCE_END]
[\n, SEPARATOR, CAN_TERMINATE_PARAGRAPH]

Python API

$ git clone https://github.com/alesapin/rutok
$ cd rutok 
$ git submodule update --init --recursive
$ sudo pip install .

Примеры