lingcorpora / lingcorpora.py

API for corpora
MIT License
7 stars 7 forks source link

Поиск по русскому корпусу ищет не совсем понятно где #48

Open fat-crocodile opened 2 years ago

fat-crocodile commented 2 years ago

При любом поиске по основному корпусу через стандартный интерфейс на сайте в результатах поиска в самом верху выводится строка:

Объём всего корпуса: 126 901 документ, 337 025 184 слова.

При поиске через апи http://search1.ruscorpora.ru/dump.xml в получающемся файле есть похожая статистика, но там другие цифры:

<words total="283431966"/>
<sentences total="23803881"/>
<documents total="115645"/>

Все числа другие, немного поменьше. На сайте я не смог найти корпус, в котором было бы 115 645 документов, ни в новой ни в старой версии.