для яких слів треба ці всі форми генерувати, схоже, що для невеликої частки з усіх слів - можна знайти такі форми з граку і додати їх окремо
Тут є різні групи слів, які потребують різних підходів:
1) пада, літа — вибрати зі списку нерозпізнаних слів + згенерувати для найчастотніших дієслів автоматом (інакше доведеться після майже кожного поповнення ГРАКу знову вибирати зі списку нерозпізнаних слів)
2) падаєм, літаєм - це ми вже й так генеруємо автоматом
3) ходить, тікать — згенерувати автоматом для найчастотніших дієслів. Можна й для всіх автоматом, але це буде overkill.
4) відмір, розмір - дуже нечастотні: відмір у ГРАКу йде лише у прислів'ї "Сім раз відмір", а розмір — важко визначити, бо забиває іменник. Тому тут можна додати лише дієслівну форму відмір, а розмір — мабуть, взагалі не додавати.
5) ходіте, дивітеся — згенерувати автоматом для найчастотніших дієслів.
6) Дієприслівники на -ся можна генерувати для всіх випадків автоматом.
7) нестягнені прикм. - гарная, синєє — вибрати зі списку нерозпізнаних слів + можна згенерувати автоматом для найчастотніших прикметників
які теги давати - залежить, для яких цілей ми їх додаємо, схоже, щоб шукать в ГРАЦі, тоді треба якийсь уніфікований (чи на кожен випадок свій?)
Загалом кажучи, теги мають бути уніфіковані для однотипних випадків. Тому так:
1) пада, літа :rare
2) падаєм, літаєм :subst (тобто хай буде, як є)
3) ходить, тікать :coll
4) відмір, розмір - без тегу (це паралельні форми)
5) ходіте, дивітеся - :rare
6) дієсприслівники на -ся - у нас є плюючися, клюючися, плювавшися з :rare. — Я вважаю, можна подавати без тегу. У сучасному вжитку вони й справді рідше вживані, хоча в ГРАКу їх чимало: дієприслівників на -чися - понад 9 тисяч траплянь , а на -шися — понад 11 тисяч траплянь у ГРАКу — таки варто розпізнавати їх. Найкраще подавати їх взагалі без тегу, бо це просто паралельна, хоч і трохи менш звична нині, форма. До того ж зайвої омонімії не створює. Якщо ж дуже-дуже треба тег, то можна "з натяжкою" присвоїти :rare.
7) нестягнені прикм. - гарная, синєє — :rare
що підкреслювати в правописнику?
Тільки те, що є нині. Все решта надто рідко трапляється в сучасному мовленні. До того ж створює додаткову омонімію. Шкірка не варта вичинки.
чи намагатися десь знімати омонімію
Я так розумію, що для ГРАКу (на відміну від LT) додаткова омонімія не така велика проблема. Важливіше, щоб шукалися всі форми слів. Марія, мабуть, підтвердить, що це так, і скаже, де і наскільки важливо знімати омонімію.
для яких слів треба ці всі форми генерувати, схоже, що для невеликої частки з усіх слів - можна знайти такі форми з граку і додати їх окремо Тут є різні групи слів, які потребують різних підходів: 1) пада, літа — вибрати зі списку нерозпізнаних слів + згенерувати для найчастотніших дієслів автоматом (інакше доведеться після майже кожного поповнення ГРАКу знову вибирати зі списку нерозпізнаних слів) 2) падаєм, літаєм - це ми вже й так генеруємо автоматом 3) ходить, тікать — згенерувати автоматом для найчастотніших дієслів. Можна й для всіх автоматом, але це буде overkill. 4) відмір, розмір - дуже нечастотні: відмір у ГРАКу йде лише у прислів'ї "Сім раз відмір", а розмір — важко визначити, бо забиває іменник. Тому тут можна додати лише дієслівну форму відмір, а розмір — мабуть, взагалі не додавати. 5) ходіте, дивітеся — згенерувати автоматом для найчастотніших дієслів.
6) Дієприслівники на -ся можна генерувати для всіх випадків автоматом.
7) нестягнені прикм. - гарная, синєє — вибрати зі списку нерозпізнаних слів + можна згенерувати автоматом для найчастотніших прикметників
які теги давати - залежить, для яких цілей ми їх додаємо, схоже, щоб шукать в ГРАЦі, тоді треба якийсь уніфікований (чи на кожен випадок свій?) Загалом кажучи, теги мають бути уніфіковані для однотипних випадків. Тому так: 1) пада, літа :rare 2) падаєм, літаєм :subst (тобто хай буде, як є) 3) ходить, тікать :coll 4) відмір, розмір - без тегу (це паралельні форми) 5) ходіте, дивітеся - :rare 6) дієсприслівники на -ся - у нас є плюючися, клюючися, плювавшися з :rare. — Я вважаю, можна подавати без тегу. У сучасному вжитку вони й справді рідше вживані, хоча в ГРАКу їх чимало: дієприслівників на -чися - понад 9 тисяч траплянь , а на -шися — понад 11 тисяч траплянь у ГРАКу — таки варто розпізнавати їх. Найкраще подавати їх взагалі без тегу, бо це просто паралельна, хоч і трохи менш звична нині, форма. До того ж зайвої омонімії не створює. Якщо ж дуже-дуже треба тег, то можна "з натяжкою" присвоїти :rare. 7) нестягнені прикм. - гарная, синєє — :rare
що підкреслювати в правописнику? Тільки те, що є нині. Все решта надто рідко трапляється в сучасному мовленні. До того ж створює додаткову омонімію. Шкірка не варта вичинки.
чи намагатися десь знімати омонімію Я так розумію, що для ГРАКу (на відміну від LT) додаткова омонімія не така велика проблема. Важливіше, щоб шукалися всі форми слів. Марія, мабуть, підтвердить, що це так, і скаже, де і наскільки важливо знімати омонімію.