brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
561 stars 73 forks source link

Додати варіативні форми для тегування корпусу #237

Closed arysin closed 4 years ago

arysin commented 4 years ago
  1. для яких слів треба ці всі форми генерувати, схоже, що для невеликої частки з усіх слів - можна знайти такі форми з граку і додати їх окремо Тут є різні групи слів, які потребують різних підходів: 1) пада, літа — вибрати зі списку нерозпізнаних слів + згенерувати для найчастотніших дієслів автоматом (інакше доведеться після майже кожного поповнення ГРАКу знову вибирати зі списку нерозпізнаних слів) 2) падаєм, літаєм - це ми вже й так генеруємо автоматом 3) ходить, тікать — згенерувати автоматом для найчастотніших дієслів. Можна й для всіх автоматом, але це буде overkill. 4) відмір, розмір - дуже нечастотні: відмір у ГРАКу йде лише у прислів'ї "Сім раз відмір", а розмір — важко визначити, бо забиває іменник. Тому тут можна додати лише дієслівну форму відмір, а розмір — мабуть, взагалі не додавати. 5) ходіте, дивітеся — згенерувати автоматом для найчастотніших дієслів.
    6) Дієприслівники на -ся можна генерувати для всіх випадків автоматом.
    7) нестягнені прикм. - гарная, синєє — вибрати зі списку нерозпізнаних слів + можна згенерувати автоматом для найчастотніших прикметників

  2. які теги давати - залежить, для яких цілей ми їх додаємо, схоже, щоб шукать в ГРАЦі, тоді треба якийсь уніфікований (чи на кожен випадок свій?) Загалом кажучи, теги мають бути уніфіковані для однотипних випадків. Тому так: 1) пада, літа :rare 2) падаєм, літаєм :subst (тобто хай буде, як є) 3) ходить, тікать :coll 4) відмір, розмір - без тегу (це паралельні форми) 5) ходіте, дивітеся - :rare 6) дієсприслівники на -ся - у нас є плюючися, клюючися, плювавшися з :rare. — Я вважаю, можна подавати без тегу. У сучасному вжитку вони й справді рідше вживані, хоча в ГРАКу їх чимало: дієприслівників на -чися - понад 9 тисяч траплянь , а на -шися — понад 11 тисяч траплянь у ГРАКу — таки варто розпізнавати їх. Найкраще подавати їх взагалі без тегу, бо це просто паралельна, хоч і трохи менш звична нині, форма. До того ж зайвої омонімії не створює. Якщо ж дуже-дуже треба тег, то можна "з натяжкою" присвоїти :rare. 7) нестягнені прикм. - гарная, синєє — :rare

  3. що підкреслювати в правописнику? Тільки те, що є нині. Все решта надто рідко трапляється в сучасному мовленні. До того ж створює додаткову омонімію. Шкірка не варта вичинки.

  4. чи намагатися десь знімати омонімію Я так розумію, що для ГРАКу (на відміну від LT) додаткова омонімія не така велика проблема. Важливіше, щоб шукалися всі форми слів. Марія, мабуть, підтвердить, що це так, і скаже, де і наскільки важливо знімати омонімію.

vstarko commented 4 years ago
  1. ходить, тікать - ця форма інфінітива можлива лише в дієслів, в яких основа закінчується на голосний. Це ще одне обмеження
arysin commented 4 years ago

Зроблено: 1, 2, 3, 7 Лишилося: 4, 5, 6

arysin commented 4 years ago

Більшість пунктів зроблено, випадки пункту 4 досить рідкі, їх можна буде за потреби опрацювати окремо. Пункт 5 винесено в #241