sokirko74 / aot

Seman is a set of linguistic tools to analyze Russian or German texts, it contains lexicons and grammars. The project is interesting as a base line for many research projects in computer linguistics area.
http://aot.ru
GNU Lesser General Public License v2.1
83 stars 14 forks source link

Неправильные ударения #2

Closed bzaar closed 3 years ago

bzaar commented 3 years ago

В результате выборочной проверки русского словаря обнаружилось множество неправильно поставленных ударений и случаев непоследовательного употребления буквы Ё.

Результаты проверки ниже. Список далеко не исчерпывающий.

Откуда столько ошибок? Или я неправильно распарсил словарь?

"АРТЕМ", // нет Ё
"ЦВЕТ", // Не учтен "-" (нет мн.ч.), получается ЦВЕ<ТОВ
"АБАКА", // Не учтен "-" (нет мн.ч.), получается АБАКА<Х
"ВЗЯТЬ", // неправильное ударение взЯла
"БОЛЕУТОЛЕНИЕ", // странное ударение БОЛЕУ<ТОЛЕНЬЕ
"БОЛОТОВЕДЕНИЕ", // странное ударение БОЛОТО<ВЕДЕНЬЕ
"ВОЛЬНОДУМИЕ", // см. выше
"ВОЛЬНОЛЮБИЕ", // см. выше
"ВОЛЬНОМЫСЛИЕ", // см. выше
"ВООДУШЕВЛЕНИЕ", // см. выше
"ВОСПОЛНЕНИЕ", // см. выше
"ВОСПЛАМЕНЕНИЕ", // см. выше
"ВОСПРЕЩЕНИЕ", // см. выше
"ВОССТАНОВЛЕНИЕ", // см. выше
// что интересно, волеизъявле/ние НЕ СОДЕРЖИТ ЭТОЙ ОШИБКИ
"ВОСПЛАМЕНЯТЬ", // неправильное ударение: ВОСПЛА<МЕНЯЮЩИЙ, ВОСПЛА<МЕНЯЕМЫЙ
"ВОСПОЛНИТЬСЯ", // неправильное ударение в деепр. ВОСПОЛНЯ<СЬ
"ВПАИВАТЬ", // неправильное ударение ВПАИВА<ВШИ
"ВПИСЫВАТЬ", // неправильное ударение ВПИСЫВА<ВШИ
"ВПИТЫВАТЬ", // неправильное ударение ВПИТЫВА<ВШИ
"ВОСПРИНИМАТЬ", // неправильное ударение ВОСПРИ<НИМАЕМЫЙ
"ВОССТАНАВЛИВАТЬ", // неправильное ударение восстанавлива/вши
"ФЕДОР", // нет Ё
"ФЕДОРОВ", // нет Ё
"ИЗ-ЗА", // предлог обычно безударный
"БЕЛОЗЕРОВ", // нет Ё
"КИСЕЛЕВ", // нет Ё
"ВОРОБЬЕВ", // нет Ё
"БОЛЬНОЙ", // неправильная краткая форма БОЛЁН
"ВОЛЬНЫЙ", // неправильная краткая форма ВОЛЁН
"БОЙКИЙ", // побо/йчее
"ПОНОМАРЕВ", // нет Ё
"СЕМЕН", // нет Ё
"СЕМЕНОВ", // нет Ё
"ПОВЫЧЕРКИВАТЬ", // нет Ё
"ВОЙЛОК", // неправильное ударение Р2 ВОЙЛОКУ<
"ВОСК", // неправильное ударение Р2 ВОСКУ<
"КРЫЖОВНИК", // неправильное ударение Р2 КРЫЖОВНИКУ<
"КРЕП-ЖОРЖЕТ", // неправильное ударение Р2
"ВОРОНИТЬ", // у непереходного не должно быть форм на -СЯ (у ворОнить)
"ВРОЖДЁННЫЙ", // неправильное ударение в краткой форме врожденЕе
"ВСПУШИТЬ", // вспуше/н, вспуше/на
"ВСТРЕПЫХАТЬСЯ", // ВСТРЕПЫ<ХАЕМСЯ
"ВЫЗВЕРИТЬСЯ", // вызве/рься (правильно: вы/зверись)
"ВЫЗДОРОВЕТЬ", // выздорове/ем
"ВЫИСКАТЬ", // выи/щут, ПРАВИЛЬНО: вы/ищут
"ВЫКАРАБКАТЬСЯ", // выкара/бкаемся, ПРАВИЛЬНО: вы/карабкаемся
"ВЫМАТЕРИТЬСЯ", // неправильное ударение во всех формах
"ДОРОГОЙ", // ДОРО<Г, ДОРО<ГО
"НЕДОРОГОЙ", // НЕДОРО<Г, НЕДОРО<ГО
"ДОСЛЫШИВАТЬ", // дослышива/ть
"ДОСТИГАТЬ", // неправильное ударение во всех формах: дости/гать, дости/гавшей
"ПОБЕЗДЕЛЬНИЧАТЬ", // побездельнича/ем
"ПОБАРЫШНИЧАТЬ", // побарышнича/ем
"ПОБРАЖНИЧАТЬ", // пображнича/ем
"ПОВАЖНИЧАТЬ", // поважнича/ем
"ПОВЗЛАМЫВАТЬ", // повзламыва/ло И ДРУГИЕ ФОРМЫ
"ПОВЕСТВОВАТЬ", // повество/вали И ДРУГИЕ ФОРМЫ
"ПОВКАЛЫВАТЬ", // повкалыва/ет И ДРУГИЕ ФОРМЫ
"ПОВЫЧИСТИТЬСЯ", // повычисти/лись И ДРУГИЕ ФОРМЫ
"ЧЕТЫРЁХДВЕРНЫЙ", // ЧЕТЫРЁХДВЕРНО<ГО
// сковоро/да
"СЛЕД", // откуда-то взялся П2
"ДОМ", // лишний П2
"СЛИЗНУТЬ", // сли/знул
"СЛОНЯТЬ", // что значит это слово? Может быть, СЛОНЯТЬСЯ?
"СМЕТЛИВЫЙ",
"СМЕТЛИВОСТЬ",
"СМУЩЁННЫЙ", // смущеннЕе 
"РЕГЕНЕРИРОВАТЬСЯ", // регенерирова/вшийся
"НАПРИДУМЫВАТЬ", // НАПРИДУМЫВА<ТЬ 
"ВОЗЖЕЧЬ", // ВОЗЖЖЕ<НА и др.
"ДИСКРИМИНИРОВАТЬСЯ", // дискриминиру/ющаяся
"ДИСПЕРГИРОВАТЬ", // диспергирова/лся
"ДИСЦИПЛИНИРОВАТЬСЯ", // ДИСЦИПЛИНИРУ<ЮЩЕГОСЯ 
"ЗАБРЯКАТЬ", // забряка/ем
"ЗАПЛЕЧИК", // заплечИк - что это? У Зализняка есть заплЕчики
"ЗАПРОТИВИТЬСЯ", // запротиви/лась
"ЗАПРОТЕСТОВАТЬ", // запроте/стуя
"ЗАПУЛЬСИРОВАТЬ", // запульсирова/л И ДР.
"ИЗМОЖДЁННЫЙ", // ИЗМОЖДЁ<НА (правильно: ИЗМОЖДЕНА<) 
"ИЛЬЯ", // нет Ё в ИЛЬЁЙ, неправильное ударение в ИЛЬИЧЕ
"ИМОМАЛИ", // скорее всего, имелось в виду Эмомали, но тогда ударение должно мыть на последний слог
"ИНЦЕСТ", // неправильное ударение
"КАПИТАЛОЕМКИЙ", // нет Ё
"КАРАМУРЗА", // неправильное ударение, должно быть карамурзА
"КВАРТИРОВАТЬ", // кварти/ровать
"КНЯЖНА", // неправильно ударение КНЯЖНОЮ<
"КОВАЛЕВ", // нет Ё
"КОЛЕЯ", // Неправильное ударение колЕю
"КОРЧМА", // Неправильное ударение корчмоЮ
"КОЛЯДА", // Неправильное ударение колЯда
"КОНФИСКОВЫВАТЬ",
"КОСТЮМИРОВАТЬСЯ", // "костюми/роваюсь"
"КРОХА", // крохА
"НЕВЕСЁЛЫЙ", // кр. ф. невесёл, правильно: невЕсел
"НЕВОЗОБНОВЛЯЕМЫЙ", // невозобновляе/мого
"ТОРЖЕСТВОВАТЬ",
"ПОДТВЕРЖДАТЬ",
sokirko74 commented 3 years ago

Привет, спасибо за сообщение об ошибках. Ударения ставил Коля Кецарис (https://rifmovnik.ru ) . Он использовал словарь Зализняка и какие-то свои наработки. Во всяких таких полуавтоматических процессах могли быть ошибки. Люди это все потом не перепроверяли. Если у вас есть еще информация об ошибках, пишите сюда. Это надо будет исправить. Я попытаюсь сюда позвать Колю

sokirko74 commented 3 years ago

Ошибки исправил (кроме "слонять слонов" и "заплечика" )

bzaar commented 3 years ago

Алексей, спасибо за быструю реакцию. Как я уже сказал, присланный мной список далеко не исчерпывающий. Diff файлов словоформ моей и вашей версий словаря содержит 2 млн. отличий. Просмотреть их все, сами понимаете, нет никакой возможности. Вот еще несколько ошибок - некоторые из них систематические. Возможно, вам удастся уловить систему и исправить их несколькими правками в акцентных парадигмах. А исправлять единичные ошибки боюсь нашей с вами жизни не хватит.


перевы/полняющий
передо/веряющий
перена/селяемый
перена/селяющий
перео/бучаемый
перео/бучающий
пере/правляемый
переу/ступаемый
пилотиру/ющийся
гравиро/вавший
двоедушни/чавший
демодулирова/вшийся
дерве/невший
диспергирова/вшийся
докушива/вший
дона/числявший
доо/формлявший
по/дкрепляемый
подо/греваемый
протоколиру/ющийся
профилиру/ющийся
типизиру/ющийся
ба/лдевший
благо/вещавший

плаче/ю (правильно : плачею/ от плачея́ жо 6b)
суле/ю (аналогично)
толче/ю
шве/ю
шема/ю
шле/ю
яче/ю
вере/ю

АЛЕШИН, АЛФЕРОВ, АРТЕМЕНКО - не хватает Ё

гражда/не

вёдший (правильно: ведший) и другие (взвёдший, довёдший)
доцвётший - аналогично
bzaar commented 3 years ago

Поискал эти же слова в словаре Рифмовника (3.7, Win). Большинства ошибок нет:

Ошибки на Е/Ё присутствуют:

Нет в словаре Рифмовника:

Предлагаю не закрывать пока этот issue.

bzaar commented 3 years ago

Привет, я думаю, я вернусь к этому тикету через неделю-другую. Что-то сделаю и снова попробую закрыть этот тикет.

Originally posted by @sokirko74 in https://github.com/sokirko74/aot/issues/3#issuecomment-761607631

Вы наверное имели в виду этот тикет (#2), а не #3.

Морфологический словарь нельзя полностью исправить. Эта лодка всегда будет течь.

Т.е. на исправление систематических ошибок в ударениях не стоит надеяться?

sokirko74 commented 3 years ago

Я признаю, что схема правки словаря через github себя не оправдала. Лучше использовать решение по типу wiktionary (или сам wiktionary). Спорить иногда приходиться о каждом слове, споры должны быть зафиксированы, решения по спорам могут меняться со временем. Я готов исправлять конкретные ошибки (списки слов) из уважения к текущим пользователям словаря, призывая переходить на новые решения.

Я проверил 10 случайных слов из списка, который начинается со слова "перевы/полняющий". Я вижу, что ударения там стоят в другом месте. Возможно, я исправил эти ошибки в январе. Я использовал для проверки http://aot.ru/demo/morph.html (with paradigm). Можете прогнать ваше сравнение еще раз на последней версии словаря aot.ru? Сейчас посмотрю другие списки, но лучше бы это были отдельные тикеты.

sokirko74 commented 3 years ago

Швею, кажется, не надо исправлять

sokirko74 commented 3 years ago

Исправил граждане

sokirko74 commented 3 years ago
  1. Исправил "цвести" и "вести".
  2. Где искать полный список фамилий, в которых надо поменять e на ё, я не знаю. Если подскажете, буду рад.
  3. Сейчас выложу свои изменения в репозиторий.