brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
546 stars 71 forks source link

Проблеми з невідмінюваними словами #307

Open arysin opened 2 years ago

arysin commented 2 years ago

Делі, Тбілісі - с.р. (бо місто??) «чудовий Делі» та «офіційний Тбілісі»...

віскі, бренді - ч.р., але в ГС бренді ч. і с.р. Є також розбіжності і словників і вжитку з іншими словами: фламенко, сумо, віскі, бренді, сациві, хінкалі, олів'є? теж авокадо...

arysin commented 2 years ago

від @vstarko :

Є певні правила (див. нижче). Додам тільки, що коли є два варіанти роду, які не залежать від значення (напр., екю), то можна спиратися на частотність (у ГРАКу чи гуглі), щоб вибрати один рід. З тим самим "екю" середній рід переважає, багато форм (хорошого екю) є спільними для обох родів, тож ч.р. можна просто проігнорувати й не подавати у ВЕСУМі. Ще один момент: в понижчому описі застосовано переважно семантичний критерій, але мовці у своєму мовленні інколи орієнтуються на форму слова: якщо закінчується на -о чи на -е, то автоматично (Система 1) вважають його с.р. (напр., велике шимпанзе). Загалом кажучи, це помилка. Але може бути, що такий формальний критерій у деяких випадках переважатиме (скажімо, шимпанзе+прикметник/дієслово у с.р. переважатиме). Чи треба на це якось реагувати? Не знаю, не певен. Єдине, що не хотілося б вводити те саме слово у словник в ч.р. і с.р., бо тоді в багатох контекстах (окрім н.в. одн. й інколи з.в. одн.) неможливо буде зняти омонімію. Для контекстів типу "Шимпанзе годувала малюка", я б нічого не міняв - шимпанзе залишав би ч.р. (це суто граматична категорія).

Як визначити рід невідмінюваних іменників

  1. Зрозуміло, що назви осіб чоловічої статі належать до чоловічого роду: прибулий месьє, військовий аташе, люб’язний портьє, справедливий рефері, відомий шансоньє, елегантний маестро, заповзятий папараці.
  2. Назви осіб жіночої статі кваліфікуються як іменники жіночого роду: усміхнена фрейлен, літня мадам, серйозна фрау, струнка міс.
  3. Родова належність деяких найменувань осіб визначається конкретним уживанням у мові. Це так звані іменники спільного роду. Ваш протеже – ваша протеже, справжній хіпі – справжня хіпі.
  4. Невідмінювані іменники, що означають тварин, належать до чоловічого роду: крикливий какаду, яскравий ара, галасливий жако, швидкий ему, смішний поні, крихітний колібрі, потішний маго, неповороткий гризлі. Але якщо контекст указує, що йдеться про самку, то слова, які узгоджуються з невідмінюваними назвами тварин, уживаються у формі жіночого роду. “Шимпанзе годувала малюка”, “Поні не відходила ні на крок від дитини”. Винятком є іменники цеце (муха), івасі, путасу (риба), ківі (пташка), окапі (тварина родини жирафових), котрі належать до жіночого роду.
  5. Субстантивовані (тобто такі, що стали виконувати функцію іменників) невідмінювані слова відносяться до середнього роду: довгождане “так”, останнє “вибач”, суворе “цить”, лагідне “добраніч”, улесливе “мерсі”.
  6. До середнього роду також належать невідмінювані іменники, що називають неістот: вовняне кашне, нове меню, актуальне інтерв’ю, світлове табло, смачне канапе. Частина іменників змінила родову належність відповідно до родової ознаки тематичного слова. Так, до чоловічого роду належать невідмінювані сироко, памперо, майстро, грего та інші назви вітру, сулугуні (сир), шимі (танець), кабукі (театр), кавасакі (бот), бефстроганов (від прізвища Строганов), багі (гоночний автомобіль), бенді (хокей з м’ячем), кантрі (стиль у музиці), жакоб (стиль меблів), барбекю (різновид шашлику). Іменниками жіночого роду є слова авеню (вулиця), бере (груша), кольрабі (капуста), салямі (ковбаса), страдиварі (скрипка), альма-матер (буквально “мати-годувальниця”).
  7. Деякі невідмінювані назви неістот подаються в словниках з подвійною родовою характеристикою. Наприклад, як іменники чоловічого і середнього роду визначаються назви певних грошових одиниць (екю, ескудо), танців (па-де-де, па-де-труа, сиртакі), а також слова мачете, статус-кво, бренді. У формах жіночого і середнього роду виступають іменники есперанто (мова), афгані (грошова одиниця). Слово бієнале (б’єнале) словники подають як іменник чоловічого і середнього роду.
  8. Невідмінювані багатозначні слова можуть мати неоднакову родову характеристику в різних значеннях: альпака – ч. і ж. (тварина) і с. р. (шерсть), каберне – ч. р. (сорт винограду) та с. р. (вино), контральто – с. р. (голос) і ж. р. співачка), сопрано – с. р. (голос) і ж. р. (співачка).
  9. Рід невідмінюваних географічних назв визначається за родовим поняттям (держава, місто, озеро, річка, гора, острів тощо): гостинне Батумі (місто), стрімка Арагві (річка), висока Ай-Петрі (вершина), зелений Хоккайдо (острів), небезпечний Страмболі (вулкан). Якщо слово співвідноситься з різними родовими поняттями, воно вживається в різних родових формах: Гаїті проголошена незалежною 1804 року (держава). На гористому Гаїті виявлено поклади бокситів.
  10. За родовою назвою визначається і рід невідмінюваних назв органів преси, громадських організацій, спортивних клубів, команд тощо. “Про це повідомила “Торонто стар” (газета); “Темпо” подав цікаві публікації про футбольний чемпіонат” (журнал); “Наполі” перемогла у фінальному матчі з рахунком 3:1” (команда); “Мебіл ойл” заснована 1882 року” (монополія); “Прадо” відомий колекціями іспанського мистецтва” (музей).
  11. Рід невідмінюваних абревіатур відповідає роду стрижневого слова. “У районі відкрита нова АЗС” (автозаправна станція); “Наш НДІ уклав кілька перспективних договорів” (науково-дослідний інститут). У деяких випадках відзначається родова варіантність абревіатур. Наприклад, слово ВАК (Вища атестаційна комісія) вживається як невідмінюваний іменник жіночого роду і як відмінюване слово чоловічого роду: 1992 року розпочала роботу ВАК України; ухвалено рішення ВАКу про затвердження дисертації. Відмінювана форма чоловічого роду властива розмовній мові, невідмінювана форма є літературною.
vstarko commented 2 years ago

Пропоную такі принципи для цих слів:

  1. У ВЕСУМ вносити тільки одну лему якогось роду. (А не дві леми, ч.р. і с.р.)
  2. Там, де є (суттєві) розбіжності між словниками й вжитком, віддавати перевагу вжитку: подати у ВЕСУМі той рід, який частіше трапляється в текстах. І водночас у таких випадках у "Правописнику" додати правило з поясненням: "Хоча в словниках укрмови цьому слову приписано такий-то рід, у текстах воно частіше трапляється в такому-то роді."
  3. Якщо в текстах переважає "словниковий" варіант роду, але трапляється (значно менш часто) й інший рід, у ВЕСУМі подати це слово в "словниковому" роді, а в Правописник можна можна додати правило (але тільки для тих випадків, де рід однозначно не той — це може бути не так тривіально виловити, зазвичай потрібен прикметник у н.в. і зн.в. одн. або дієслово в мин. часі). Хоча, можливо, таке правило вимагатиме непропорційно великих зусиль і матиме низький ККД. Приклади: Співвідношення вживання в ГРАКу adj+Тбілісі, за якими можна чітко встановити рід слова "Тбілісі" - 42:10 на користь ч.р. ("офіційний Тбілісі" трапляється особливо часто). Для "Делі" те саме - 3:0 на користь ч.р. Для "Делі" цих даних замало, однак пошук у гуглі показує: "офіційний Делі" 42 рази, а "офіційне Делі" - 12. Тож ч.р. переважає й тут. Отже, варто подати у ВЕСУМі Тбілісі й Делі в ч.р., а в Правописнику додати правило/-а з поясненням. Сумо - у словниках має ж.р. (як боротьба), але в ГРАКу жодного разу не трапляється в ж.р. Натомість вживання в ГРАКу засвідчують с.р.: лідер вітчизняного сумо, борець професійного сумо, один із лідерів світового любительського сумо, жіноче сумо, успіхи українського сумо, додалося сумо, колективне сумо. Отже, подати "сумо" у ВЕСУМі в с.р., а в Правописнику - правило з поясненням.