Closed GoogleCodeExporter closed 9 years ago
В lucene стандартный tokenizer при разделение слов
на части слова содержащие дефис или тире
будут трактоваться как два слова. По этому
в обработке таких слов нет необходимости, а
их удаление дает меньший размер
потребляемой памяти и возможно более
точный результат предсказания для
незнакомых слов.
Original comment by Alexander.A.Kuznetsov
on 1 Jun 2011 at 10:31
Спасибо за разьяснения!
А где можно найти расшифровку выхода MorphInfo?
Я использую собственный tokenizer, а
стандартный tokenizer Lucene с русским языком
корректно работает?
Original comment by silenzio...@gmail.com
on 1 Jun 2011 at 11:05
Расшифровку можно взять отсюда
http://aot.ru/docs/rusmorph.html.
Стандартный tokenizer Lucene корректно работает
для большинства Европейских языков. Так
что можете им смело пользоваться.
Original comment by Alexander.A.Kuznetsov
on 1 Jun 2011 at 2:25
Original issue reported on code.google.com by
silenzio...@gmail.com
on 26 May 2011 at 9:04