Иметь ввиду эту разработку
Там и корпус научного русского языка хороший есть, по fb2 книгам с lib.Russian.ec, и выводы из него интересные.
Russian Distributional Thesaurus (сокр. RDT) — проект создания открытого дистрибутивного тезауруса русского языка. На данный момент ресурс содержит несколько компонент: вектора слов (word embeddings), граф подобия слов (дистрибутивный тезаурус), множество гиперонимов и инвентарь смыслов слов. Все ресурсы были построены автоматически на основании корпуса текстов книг на русском языке (12.9 млрд словоупотреблений).
Иметь ввиду эту разработку Там и корпус научного русского языка хороший есть, по fb2 книгам с lib.Russian.ec, и выводы из него интересные.