brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
561 stars 73 forks source link

Розглянути можливість зняття омонімії для конкретних/збірних понять #166

Open arysin opened 5 years ago

arysin commented 5 years ago

Наразі у нас є два випадки подвійного закінчення -а/-у, в одній лемі (напр. моста і мосту - тут просто р.в. має дві форми) і рознесені леми, напр.: агрегата :xp1 (вузол) агрегату :xp2 (сукупність) або агата :xp1 (кристал), агату :xp2 (мінерал) Але другий випадок у нас має підмножину, де просто розносяться конкретне і збірне (брикета/брикету), або дерево/фрукт(сорт) - бергамота/бергамоту, соняха/соняху тощо.

Чи має сенс для другого розносити леми? Для перевірки це майже непотрібно (бо навряд чи ми зможемо автоматом знімати омонімію для таких випадків), але, можливо, потрібно для тегування текстів.

Це трішки відступає від нашого правила "Створюємо омоніми кожного разу, коли є хоч одна відмінна словоформа в парадигмі". З іншого боку, в контексті буває важко встановити, в якому саме значенні (конкретному чи збірному) вжито слово. Та й закінчення ставлять непослідовно, не суворо за таким семантичним розмежуванням.