Open grandsbor opened 9 years ago
Comment #1 originally posted by OpenCorpora on 2010-11-02T15:42:45.000Z:
Вот это правильные файлы. Предыдущий - не правильный. Не смотрите его.
У гео местами перебор с количеством гипотез. Как по-умному обрезать и не убить при этом хорошие варианты у других слов я не придумал. Гипотезы у гео отсортированы по количеству общих букв.
Comment #2 originally posted by OpenCorpora on 2010-11-02T22:01:04.000Z:
Это список гипотез, где прилагательным без метки Geox подобраны существительные с меткой Geox. Он нужен потому, что у многих "географических" прилагательных соответствующей метки нету, и они не попали в предыдущий список.
Осторожно: список большой (5475 прилагательных). Они отсортированы по кол-ву общих букв между прилагательным и лучшей гипотезой. Т.е. начало списка хорошее, а дальше всё больше треш. Но хорошие пары всё равно встречаются.
Отличие от предыдущих списков: В этом нету прилагательных, для которых не подобрано ни одной гипотезы. И задача состоит в том, чтобы удалить плохие гипотезы, а хорошие - оставить. Искать по словарю недостающие слова не нужно.
Comment #5 originally posted by OpenCorpora on 2010-11-09T10:14:48.000Z:
Предлагаю пока отложить (все равно это скорее словообразование + много слов + есть не очевидные варианты, например, к чему привязывать "североамериканский": к слову "Аммерика", ведь к сочетанию "Северная Америка" не возможно). Сейчас пока можно просто удалить пометы "имя" и "гео" у прилагательных
Comment #6 originally posted by OpenCorpora on 2010-11-09T18:20:36.000Z:
Да, с "североамериканским" непонятно. Список list_ADJF_NOUN_noGeox_hypo.txt имеет низкий приоритет. Связи в нём надо проставлять только очевидным случаям.
И, всё таки, не просто удалить помету, а заменить её на связь ... иначе информация потеряется.
Comment #7 originally posted by OpenCorpora on 2010-11-15T17:20:07.000Z:
Неизменяемым ставим GNdr + размножаем формы по числу и падежу.
Comment #13 originally posted by OpenCorpora on 2014-07-29T18:07:50.000Z:
Если все-таки решите связать географические названия с прилагательными, вот вам в помощь программка: http://morpher.ru/adjectivizer/
Comment #14 originally posted by OpenCorpora on 2014-08-19T20:45:18.000Z:
Что-нибудь будем тут делать?
Original issue 110 created by OpenCorpora on 2010-11-02T14:25:01.000Z:
Проставить связи между прилагательными, образованными от собственных имён ("имя" и "гео") и соответствующими существительными.
В приаттаченных файлах лежат сгенерированные автоматически гипотезы в формате:
прилагательное ГРАМ, грам, грам, ... существительное-гипотеза 1 ГРАМ, грам, грам, ... существительное-гипотеза 2 ГРАМ, грам, грам, ... ...
Гипотез может быть ноль, одна или более. Если ноль, то стоит знак "?"
Граммемы пишутся не все, а только граммемы леммы. Они нужны на всякий случай, чтобы различить омонимы при автоматическом добавлении этого ручного списка к словарю.
Нужно удалить неправильные гипотезы, добавить правильные. Возможны ситуации, когда правильных связей будет несколько:
ПЕТЕРБУРГ - ПЕТЕРБУРГСКИЙ и ПЕТЕРБУРЖСКИЙ
Есть ситуации, когда правильной гипотезы не нашлось. Это может быть из-за того, что в словаре АОТ не проставлена помета "имя" (например "МАРИНКА"). Или потому, что там не было нужного имени (например "СВЕТКА"). Или потому, что простым способом гипотезу подобрать не удалось. В этих случаях в файл со связями нужно вместо "?" дописать правильные слова с граммемами (по аналогии с остальными гипотезами) + см. ниже.
Кроме этого, нужно составить два списка слов: