brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
561 stars 73 forks source link

Жіночі та чоловічі прізвища як окремі леми. #260

Open Palindromer opened 3 years ago

Palindromer commented 3 years ago

https://github.com/brown-uk/dict_uk/blob/814dc4776c2006481c9c1c94acbe7ea49898b047/data/dict/names-anim.lst#L20879

Словоформи жіночих та чоловічих прізвищ генеруються як окремі слова: https://r2u.org.ua/vesum/?w=Шевченко

Було би краще, якби вони генерувалися як одне слово. Чи можна так зробити?

arysin commented 3 years ago

Теоретично можна, але з лінгвістичного боку це не зовсім коректно, бо лемою від напр. прізв. Головацька не є Головацький. Окрім того, лексема Шевченко ж.р. невідмінювана, а ч.р. - відмінювана, тож їх об'єднувати створює проблеми.

Palindromer commented 3 years ago

Гаразд, тоді було би варто принаймні об'єднати прізвища з їхньої множиною. А то ВЕСУМ зазначає, що Шевченко і Шевченки - це різні леми. Хоча Шевченки - це множина саме від чоловічого прізвища Шевченко. Адже множина від невідмінюваного жіночого прізвища Шевченко є також невідмінюваною.

І, виходить, що множини для жіночих прізвищ у ВЕСУМі взагалі відсутні.

Окрім того, відсутні також множини для відмінюваних прізвищ. Як, наприклад, Кобилянський - Кобиляньска - Кобилянські. Або Гнатюк - Гнатюк - Гнатюки. Або Прокопів - Прокопови. Або Волошин - Волошина - Волошини. Тобто слова "Кобилянські", "Гнатюки", "Прокопови" та "Волошини" відсутні у ВЕСУМ-і. Але якщо вони генеруватимуться автоматично до початкової словоформи, то не буде потреби створювати нові леми.

Хоча, якщо чесно, я не бачу, чому лінгвістично не коректно об'єднати ці прізвища в одну лему. Так, навіть на https://lcorp.ulif.org.ua/dictua/ усі словоформи прізвищ (як чоловічі, так і жіночі, так і множина) зазначені в одній словниковій статті.

arysin commented 3 years ago

Наразі ми у словнику намагаємося знайти баланс між повнотою охоплення і практичною доцільністю. З одного боку уніфіковано мати множину прізвищ правильно, з іншого множина прізвищ вживається в текстах вкрай рідко. Є, звичайно, винятки, як от, Клички, Капранови тощо, і тоді ми їх додаємо. На жаль часто множина створює омонімію з одниною, і оскільки основний напрямок ВЕСУМу - практичне використання для аналізу текстів, ми намагаємося уникати непотрібної омонімії. Множини прізвища Шевченки у словнику немає (є село Шевченки). Але загалом, так, варто було б уніфікувати підхід до прізвищ, й до множини зокрема.

arysin commented 2 years ago

З прізвищами все дуже складно, бо вони є не тільки "чоловічі" й "жіночі", а й спільні. Можна сказати Василь і Наталя Шевченко/Шевченки, і тут прізвище спільне. Але: без Василя й Наталі Шевченків (правильніше) / Шевченко (не зовсім правильно, бо якщо так сказати, то таке враження, що є "Наталя Шевченко" й Василь без прізвища) Якщо тільки жін. прізвище в множині, то воно скоріше буде невідмінюване: кому? Софії та Ользі Шевченко (не Шевченкам). Хоча в н.в. можливе хитання: Ольга й Софія Шевченко / Шевченки. Окрім братів і сестер, прізвища в множині найчастіше, здається, трапляються, коли говорять про сім'ю: ходімо до Шевченків. І тоді прізвища завжди відміняються. Тож в більшості випадків прізвища в множині, здається, таки відміняються. З усього цього ясно, що додавати множину прізвищ у ВЕСУМ варто тільки тоді, коли вона справді трапляється в текстах (що ми й робимо), а множину "жіночих" прізвищ як невідмінювану додавати не варто. Так, інколи це спричинюватиме помилки, але дуже рідко насправді.