sokirko74 / aot

Seman is a set of linguistic tools to analyze Russian or German texts, it contains lexicons and grammars. The project is interesting as a base line for many research projects in computer linguistics area.
http://aot.ru
GNU Lesser General Public License v2.1
83 stars 14 forks source link

Качественные и относительные прилагательные #6

Open sokirko74 opened 3 years ago

sokirko74 commented 3 years ago

Письмо от Юрия Пронякина:

В словаре для всех (за редчайшим исключением) имён прилагательных используются наборы правил словообразования, порождающие краткие формы и сравнительные степени этих прилагательных. Я догадываюсь, откуда это пошло: от словаря Зализняка, который лежат в основе почти всех компьютерных словарей. Но даже у Зализняка в первой (теоретической) части словаря сказано, что сделано это искусственно (для "надлежащего уставного единообразия" таблиц), а на самом деле эти формы есть далеко не у всех прилагательных. В действительности всё ещё печальнее: прилагательные делятся на 3 категории: качественные, относительные и притяжательные, и вышеупомянутые формы есть только у относительных, которые и сами-то по себе не составляют большинства, да ещё и не у всех из них эти формы есть (внутри этой категории своё дополнительное отсечение имеется - по суффиксам). Соответственно, вопросы: При внесении новых слов как поступать: вписывать только "законные" словоформы или так, как сейчас? Что делать с "лишними" формами у уже имеющихся в словаре слов?

zanud commented 3 years ago

Поправка: во фразе "вышеупомянутые формы есть только у относительных" вместо "относительных" должно стоять "качественных".

sokirko74 commented 3 years ago

Юрий, здесь нет общего решения. Формально нам стоит доказать существование всех словоформ, но это очень сложно.

  1. Существует множество самых популярных слов, скажем, первые 10000 слов, когда у всех нас работает интуиция. Мы все знаем, что есть форма "краснее" и нет формы "металлическей".
  2. Дальше существует утверждение школьной грамматики, что прилагательное "деревянный" - относительное и у него нет формы "деревянней". Мы идем в какой-нибудь далекий интернет, например, сюда ( https://zsrf.ru/news/2019/10/01/shkolyi-budut-vyishe-i-derevyannee ) и видим, что журналисты в шутку употребили "деревяннее". Чтобы не терять такие формы, мы разрешали почти все, но старались помечать, что формы малоупотребимы. Так лучше и делать дальше. Согласны?
zanud commented 3 years ago

Я (пока что?) не в том положении, чтобы быть способным ответить на такой вопрос. Всё же зависит от цели, ради которой словарь создаётся. Можно создать строгий словарь, в котором будут только слова из правильного литературного языка. Можно создать словарь, в котором будут и прочие слова, широко употребляемые носителями языка. В этом словаре слов будет побольше. Можно создать словарь, в котором будут ещё и слова, которые носителями не употребляются, но употреблялись в прошлом. В таком словаре будет ещё больше слов. Можно создать словарь, в котором наравне со всеми предыдущими будут и слова, которые не употребляются сейчас и никогда не употреблялись в прошлом, но при этом могут быть образованы по правилам языка. И можно создать словарь, в котором будут ещё и слова, созданные не совсем по правилам, с каким-то нарушениями. ("Деревяннее" - это же именно этот случай.)

Причём каждый из этих словарей имеет право на существование. Просто у каждого своё назначение.

А назначение этого словаря я не знаю. Но знаю, что он используется в качестве основы для системы проверки правописания. А для такого применения - чем меньше неактуальных слов, тем лучше. Ведь чем больше слов (и словоформ) в словаре, тем выше вероятность, что ошибочно написанное слово совпадёт с каким-то словарным. И лучше пусть окажется подчеркнутым какое-то отсутствующее редкое слово, чем сочтено правильным ошибочное. Так что с такой точки зрения не только редкие, но даже и устаревшие слова нежелательны, а уж обсуждаемые искусственные - тем более. И если их в словаре держать, то помечать не малоупотребимыми, а именно что искусственными.

Но это абстрактно-теоретические размышления. А есть ещё и практический аспект. Если искусственные слова не разрешать, то "нет слова - нет проблемы". А если разрешать... Мне и с нормальными-то литературными словами иногда приходилось день-два потратить, чтобы выяснить, как же от него правильно нужную форму образовать ("е" или "ё" писать, куда ударение ставить). А с искусственными - вообще мрак. Вот как должна выглядеть сравнительная степень от "городской"?

sokirko74 commented 3 years ago

В основе словаря - Зализняк, его решения занимают очень много места. Дальше были мы (программисты с лингв. бэкграундом), которые 20 лет назад активно пополняли словарь, наша цель была автоматически анализировать тексты, у нас не было цели создавать спеллчекер. Теперь я знаю, что словарь используется для спеллчекера, и это стало его основной целью. Словарь надо разворачивать в эту сторону, но сил мало, я сам занимаюсь им 1 день в месяц максимум. Эти тикеты нужны, чтобы меня активизировать. Одновременно мы знаем, что есть прекрасный wiktionary, в сторону которого надо двигаться. Может быть, стоит уже похоронить нашу морфологию и перейти на wiktionary. Опять же есть инерция и просто элемент развлечения. Разумным кажется вариант ввести звездочку в словарь, обозначая ей формы, которые не надо включать в спеллчекер. У нас была такая помета - дфст (де-факто сингуляриа тантум), которая обозначала, что для этих существительных множественное число редко встречается. Звездочка может заменить помету дфст (как более общее решение). Что думаете?

zanud commented 3 years ago

Как я ночью написал в соседнем обсуждении, по моему мнению, для проверки правописания излишние слова в словаре скорее вредны. И я бы в словарь, предназначаемый для общего употребления, не включал ни устаревшие, ни жаргонные, ни разговорные, ни диалектные, ни ... слова.

Когда я только начал ковырять словарь для Hunspell и ещё ничего не знал ни об особенностях здешнего словаря, ни об АОТ вообще, то по мере накопления разных необходимых и желательных исправлений составил некую градацию (на основе пометок, имеющихся в словаре Аванесова), чтобы создатель того словаря сам решил, какие слова удалить, а какие оставить:

А потом я, наконец, нашёл здешний словарь и, заглянув внутрь его, обнаружил, что такие пометки в нём уже есть. Правда, оказалось, что конвертер словаря Hunspell ими совершенно не пользуется, что привело к наличию в порождаемом словаре ошибок. Автор конвертера сказал, что добавит в конвертер анализ пометок. Однако это касается только имён собственных (имена, фамилии, географические названия), хотя в таком деле главное начать...

Но вернёмся к теме. Звёздочка, которую Вы предлагаете, соответствует пометке "не употр." у Аванесова (у него она не ставится возле словоформы, а указывает на её отсутствие). Учитывая вышесказанное, присваивать данной пометке смысл "не включать в спеллчекер" - это слишком радикально. Тот, кто использует этот словарь, всё равно сам будет решать, где в градации провести черту отсечения. Мне кажется, что лучше (учитывая и то, что писал сам Зализняк) иметь две дополнительные пометки, одна из которых обозначает просто искусственно полученное слово, а другая - слово, относительно которого даже непонятно, правильно ли оно синтезировано (аналог звёздочки у Зализняка). (Вопрос, правда, а позволяет ли словарь помечать не леммы, а отдельные словоформы?)

Но это было "за". А теперь "против": Язык - это набор слов и правил их употребления. Слово есть в языке, если оно имеет смысл (значение) и употребляется. Если слово имеет смысл, но никем не употребляется, то уже вопрос: а есть ли оно в языке? А если слово смысла не имеет, то это и не слово вовсе, а просто набор букв/звуков, и какие, собственно, основания для включения его в словарь языка?

bzaar commented 3 years ago

А потом я, наконец, нашёл здешний словарь и, заглянув внутрь его, обнаружил, что такие пометки в нём уже есть.

Прямо такие же пометки, как у Аванесова?

bzaar commented 3 years ago

У Зализняка последовательно проставлены следующие стилистические пометы:

Кроме того, в словаре используются общепринятые сокращения, обозначающие сферы употребления терминов: анат(омическое), биол(огическое), бот(аническое), геол(огическое), грамм(атическое), зоол(огическое), истор(ическое), математическое), мед(ицинское), муз(ыкальное), сельскохоз(яйственное), техн(ическое), хим(ическое), церк(овное), юрид(ическое) и др.

Разговорные, жаргонные и прочие маты идут лесом, т.к. словарь нормативный.

Не знаю, сохранены ли эти пометы в данном словаре.

zanud commented 3 years ago

Прямо такие же пометки, как у Аванесова?

Некоторые совпадают, некоторые отсутствуют. Мой список тоже ведь не буквально повторяет аванесовский, а по смыслу (например, то, что у него "областное", я называю "диалектное"). Важно же не это, а то, что, насколько я понимаю, имеющаяся уже сейчас структура словаря позволяет добавлять словам произвольные пометки.

Не знаю, сохранены ли эти пометы в данном словаре.

Думаю, нет. Прошёлся по заголовочной части файла, там встретил: