OpenCorpora / opencorpora

A web-based engine for creating and annotating textual corpora
http://opencorpora.org
GNU General Public License v2.0
241 stars 23 forks source link

Связи между гео- и имя-прилагательными #284

Open grandsbor opened 9 years ago

grandsbor commented 9 years ago

Original issue 110 created by OpenCorpora on 2010-11-02T14:25:01.000Z:

Проставить связи между прилагательными, образованными от собственных имён ("имя" и "гео") и соответствующими существительными.

В приаттаченных файлах лежат сгенерированные автоматически гипотезы в формате:

прилагательное ГРАМ, грам, грам, ... существительное-гипотеза 1 ГРАМ, грам, грам, ... существительное-гипотеза 2 ГРАМ, грам, грам, ... ...

Гипотез может быть ноль, одна или более. Если ноль, то стоит знак "?"

Граммемы пишутся не все, а только граммемы леммы. Они нужны на всякий случай, чтобы различить омонимы при автоматическом добавлении этого ручного списка к словарю.

Нужно удалить неправильные гипотезы, добавить правильные. Возможны ситуации, когда правильных связей будет несколько:

ПЕТЕРБУРГ - ПЕТЕРБУРГСКИЙ и ПЕТЕРБУРЖСКИЙ

Есть ситуации, когда правильной гипотезы не нашлось. Это может быть из-за того, что в словаре АОТ не проставлена помета "имя" (например "МАРИНКА"). Или потому, что там не было нужного имени (например "СВЕТКА"). Или потому, что простым способом гипотезу подобрать не удалось. В этих случаях в файл со связями нужно вместо "?" дописать правильные слова с граммемами (по аналогии с остальными гипотезами) + см. ниже.

Кроме этого, нужно составить два списка слов:

  1. слова, которых в АОТ нету, а они нужны (от них есть прилагательные)
  2. слова, которые в АОТ есть, но у них нет нужной пометы ("имя" или "гео")
grandsbor commented 9 years ago

Comment #1 originally posted by OpenCorpora on 2010-11-02T15:42:45.000Z:

Вот это правильные файлы. Предыдущий - не правильный. Не смотрите его.

У гео местами перебор с количеством гипотез. Как по-умному обрезать и не убить при этом хорошие варианты у других слов я не придумал. Гипотезы у гео отсортированы по количеству общих букв.

grandsbor commented 9 years ago

Comment #2 originally posted by OpenCorpora on 2010-11-02T22:01:04.000Z:

Это список гипотез, где прилагательным без метки Geox подобраны существительные с меткой Geox. Он нужен потому, что у многих "географических" прилагательных соответствующей метки нету, и они не попали в предыдущий список.

Осторожно: список большой (5475 прилагательных). Они отсортированы по кол-ву общих букв между прилагательным и лучшей гипотезой. Т.е. начало списка хорошее, а дальше всё больше треш. Но хорошие пары всё равно встречаются.

Отличие от предыдущих списков: В этом нету прилагательных, для которых не подобрано ни одной гипотезы. И задача состоит в том, чтобы удалить плохие гипотезы, а хорошие - оставить. Искать по словарю недостающие слова не нужно.

grandsbor commented 9 years ago

Comment #5 originally posted by OpenCorpora on 2010-11-09T10:14:48.000Z:

Предлагаю пока отложить (все равно это скорее словообразование + много слов + есть не очевидные варианты, например, к чему привязывать "североамериканский": к слову "Аммерика", ведь к сочетанию "Северная Америка" не возможно). Сейчас пока можно просто удалить пометы "имя" и "гео" у прилагательных

grandsbor commented 9 years ago

Comment #6 originally posted by OpenCorpora on 2010-11-09T18:20:36.000Z:

Да, с "североамериканским" непонятно. Список list_ADJF_NOUN_noGeox_hypo.txt имеет низкий приоритет. Связи в нём надо проставлять только очевидным случаям.

И, всё таки, не просто удалить помету, а заменить её на связь ... иначе информация потеряется.

grandsbor commented 9 years ago

Comment #7 originally posted by OpenCorpora on 2010-11-15T17:20:07.000Z:

Неизменяемым ставим GNdr + размножаем формы по числу и падежу.

grandsbor commented 9 years ago

Comment #13 originally posted by OpenCorpora on 2014-07-29T18:07:50.000Z:

Если все-таки решите связать географические названия с прилагательными, вот вам в помощь программка: http://morpher.ru/adjectivizer/

grandsbor commented 9 years ago

Comment #14 originally posted by OpenCorpora on 2014-08-19T20:45:18.000Z:

Что-нибудь будем тут делать?

grandsbor commented 9 years ago

Comment #15 originally posted by OpenCorpora on 2014-08-20T13:34:17.000Z:

Я не против, только не вручную. Может, какому-нибудь студенту дать, чтобы либо проверил гипотезы, ли сформировал пары при помощи программки?

grandsbor commented 9 years ago

Comment #16 originally posted by OpenCorpora on 2014-08-20T13:41:26.000Z:

В смысле - не вручную? Вот там в первых комментах есть списки, их надо вычитать.