brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
561 stars 73 forks source link

частотні неправильно написані слова #175

Closed vstarko closed 5 years ago

vstarko commented 5 years ago

додати ці частотні леми з тегом :bad і виправленням, щоб вони тегувалися в корпусі?: тоже :bad > теж, також Черчілль :bad > Черчилль допомогати :rare:bad > допомагати (застаріла форма) агенство - внести як :bad, щоб тегувати? нічо :bad > нічого скачать :bad > звантажити УССР :bad > УРСР рН - вживають кириличні літери замість латинських – чи варто правити на латинські в вон :bad > геть, киш; он, ген приняти :bad > прийняти г / ґ В підрадянський час літери ґ не було в абетці, тому писали з г. Зараз це помилка. В корпусі таких слів купа. Чи не варто б їх додати в словник (як :bad і з заміною на ґ) з тим, щоб у корпусі вони розпізнавалися? Приклади: грунт і похідні: грунтовно, обгрунтовувати, підгрунтя тощо гатунок грат, гратам, гратах, гратами - виправляти г на ґ саме в цих формах; питання, чи варто вводити грати noun:bad із цілою парадигмою множини Це є підклас випадків, що стосуються загальнішої проблеми: правопис мінявся і ще буде мінятися, тому в текстах різних років те саме слово буде писатися по-різному. Наприклад, колись писали (за чинним тоді правописом) мадрідський, нині – мадридський. Зазвичай це відмінності в одній літері, тому Правописник автоматом підказує варіанти заміни, серед яких є написання за чинним правописом. Однак коли нашими засобами тегують корпуси, зокрема ГРАК, то написання на кшталт мадрідський чи грунт не будуть розпізнані. Варто поміркувати, який підхід обрати до цієї проблеми. Генрік – подаємо поруч із Генрик?

arysin commented 5 years ago

Різні правописи — це серйозна проблема, я створив для неї окреме питання #180

arysin commented 5 years ago

Ми маємо ці слова в ignore.lst тож вони тегуються, як bad: грунт грунтований грунтовий грунтовний +cs=грунтовніший грунтовність грунтозахисний грунтознавець грунтознавство грунтообробний грунтоутворення грунтувати грунтуватися негрунтований необгрунтований обгрунтований +cs=обгрунтованіший обгрунтованість обгрунтовання обгрунтовування обгрунтовувати обгрунтовуватися обгрунтування обгрунтувати обгрунтуватися підгрунтя

arysin commented 5 years ago

З приняти трішки складно, бо для нього немає прапорця, тож треба або заводити новий прапорець/міняти наявний, або прописувати всі форми в exceptions.lst

vstarko commented 5 years ago

приняти - це неправильне слово. Тут питання таке: або не вносити його взагалі в словник (тоді в корпусі не розпізнаватиметься, а Правописник все одно виправлятиме), або внести словник з таким самим кодом, як прийняти, тільки додати :bad і заміну на прийняти (тоді буде тегуватися в корпусі).

arysin commented 5 years ago

я додав приняти, як bad