OpenCorpora / opencorpora

A web-based engine for creating and annotating textual corpora
http://opencorpora.org
GNU General Public License v2.0
241 stars 23 forks source link

Морфологический словарь #900

Closed dimatyurin closed 2 years ago

dimatyurin commented 2 years ago

1) объедините одним идентификатором все формы одного глагола - личные формы, инфинитив, причастия, деепричастия 2) сделайте дубликат словаря, в котором грамматические категории указаны не на английском, а на русском - это позволит привлечь к его проверке несравненно более широкие массы населения 3) сделайте вывод не только в xml, но и в эксельном формате - опять же чтобы работать с ними могли простые пользователи с установленным мс-офисом на компе. В эксельном формате выведите, пожалуйста, в 3-й нормальной форме, т.е. каждую грамматическую категорию в своей собственной колонке 4) добавьте в название словаря дату - что-то вроде opencorpora.full.2022.01.30.rus.xlsx 5) выводите разницы соседних версий словаря, чтобы пользователи проверяли вручную не весь словарь заново, а только вновь появившиеся данные в словаре - что-то вроде opencorpora.new.2022.01.30.rus.xlsx

dimatyurin commented 2 years ago

пример https://cloud.mail.ru/public/GXwy/rHZxZYbiq

вот грубая предобработка вашего словаря /идентификаторы словоформ не совпадают/ https://cloud.mail.ru/public/Ax3X/FrkUnRyqZ

bzaar commented 2 years ago

@dimatyurin Возможно, вас заинтересует «Грамматический словарь» А. А. Зализняка. В нем все формы глагола объединены в одну статью. Большинство статей суперлаконичны: для описания всех форм глагола достаточно статьи вида

рисова́ть нсв 2a

Благодаря такой лаконичности словарь весит меньше 4 МБ (упакованный - 500К).

Все спец обозначения на кириллице (нсв = глагол несовершенного вида). Есть подробное описание формата.

Править словарь «широкие массы» могут в браузере через веб-интерфейс Гитхаба. Соответственно, есть вся история правок. Правда, ошибок там осталось уже немного. :) Если хочется пополнять словарь, можно завести под это дело отдельный репозиторий.

Словарь OpenCorpora основан на словаре АОТ, который получен преобразованием одного из ранних изданий словаря Зализняка. Оба преобразования внесли систематические ошибки, которые в АОТ и OpenCorpora до сих пор правят. Часть информации была сознательно выброшена: ударения, сведения о затрудненности (победю, мечт), о распределении глагольного вида по формам (приветствовать – несовершенный в настоящем времени и двувидовой в прошедшем).

Поэтому я предлагаю вернуться к исходному словарю Зализняка, к последнему его изданию 2010 года, и написать для него преобразования в любой необходимый формат. А если обнаружатся ошибки преобразования, то исправлять скрипт преобразования, а не результат преобразования.

Если интересно, можем обсудить.

victorbocharov commented 2 years ago

@bzaar спасибо за развёрнутый ответ

@dimatyurin мне кажется, что на сайте выложено всё необходимое для того, чтобы сделать всё то, о чём вы пишите. Поэтому вы можете сделать это самостоятельно. Сообщите, если каких-то данных нет.

По поводу пункта 2: редактирование словаря требует квалификации. С широкими массами не получается.