brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
561 stars 73 forks source link

Проблема тегування різних варіантів правопису #180

Closed arysin closed 3 years ago

arysin commented 5 years ago

В підрадянський час літери ґ не було в абетці, тому писали з г. Зараз це помилка. В корпусі таких слів купа. Чи не варто б їх додати в словник (як :bad і з заміною на ґ) з тим, щоб у корпусі вони розпізнавалися? Приклади: грунт і похідні: грунтовно, обгрунтовувати, підгрунтя тощо гатунок грат, гратам, гратах, гратами - виправляти г на ґ саме в цих формах; питання, чи варто вводити грати noun:bad із цілою парадигмою множини Це є підклас випадків, що стосуються загальнішої проблеми: правопис мінявся і ще буде мінятися, тому в текстах різних років те саме слово буде писатися по-різному. Наприклад, колись писали (за чинним тоді правописом) мадрідський, нині – мадридський. Зазвичай це відмінності в одній літері, тому Правописник автоматом підказує варіанти заміни, серед яких є написання за чинним правописом. Однак коли нашими засобами тегують корпуси, зокрема ГРАК, то написання на кшталт мадрідський чи грунт не будуть розпізнані. Варто поміркувати, який підхід обрати до цієї проблеми. Генрік – подаємо поруч із Генрик?

ostasevych commented 5 years ago

Можливо варто вживати гіпертекстну зноску: в тексті оригіналу, який подаватиметься у спеціялізованих матер’ялах, історичних документах подавати за тоді чинним (дійсним, актуальним) правописом, як от у документі часів Т.Г. Шевченка, якщо ж це стосується вставок ув освітніх підручниках чи в загальній сучасній літературі, то подавати згідно з чинним нині правописом. Для розрізнення історичних чи спец. текстів можна додати відповідну мітку.

arysin commented 3 years ago

Наразі слова, що є чинними лише за правописом 1992 мають тег :ua_1992, а ті, що лише за правописом 2019 - :ua_2019