brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
547 stars 71 forks source link

Ґарет, Дуґлас тощо #346

Open arysin opened 6 months ago

arysin commented 6 months ago

VS: На такі слова вискакує повідомлення, що вони написані не за чинним правописом. Однак за новим правописом у прізвищах та іменах можна писати на вибір г або ґ. Тобто такі написання (але тільки імен і прізвищ!) насправді відповідають чинному правопису. Це повідомлення виникає тоді, коли у ВЕСУМі маємо такі імена й прізвища з г.

arysin commented 6 months ago

В словнику були лише Гарет та Дуглас, і поточна логіка тегування, якщо слово не знайдено, то намагаємося замість ґ поставити г і знову пошукати в словнику, але в цьому випадку автоматом ставимо :alt (щоб не писали «ґречка» тощо).

arysin commented 6 months ago

VS: логіку можна трохи скоригувати: якщо підставляємо заміть ґ літеру г і знаходимо це слово в словнику як :fname або :lname, то розпізнаємо, але :alt не ставимо. Така модифікація логіки дасть змогу охопити всі (ну велику кільість) імен і прізвищ, щодо яких чинний правопис дає свободу вибору ґ чи г. І тоді не треба їх усіх вносити в словник у двох варіантах.

arysin commented 6 months ago

Мабуть можна так зробити. Але є шанс, що приховаються помилки, коли зловживають ґ, напр. Виґовським, Ґоґоль, Армстронґ, Фрейденберґ...