brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
560 stars 73 forks source link

Відсутні японські слова #393

Open bicolino34 opened 1 month ago

bicolino34 commented 1 month ago

Деякі японські імена, що часто зустрічаються в ГРАК-17.

arysin commented 1 month ago

То тут трохи роботи опрацьовувати досить оказіональні випадки: Інамура - зустрічається десь 7 разів і лише в одному творі Ісівара - 2 рази в одному творі Ітікава - десь 10 разів (хоча це вже є в суч. новинах), але також є як місто Адзамі - десь під 20 разів, але знову ж лише в одному творі ... І кожне таке ім'я треба проаналізувати - частоту, твори, чи це ім'я, чи прізвище, і чи ч.р., чи ж.р. (або обидва), чи (також) топонім. На 2 млрд токенів ГРАКу все що вживається менш ніж 10 разів - переважно не має сенсу витрачати енергію. Винятком можуть бути імена, що раптом з'являються в сучасних текстах (медія), напр. нові прем'єр-міністри тощо.

bicolino34 commented 1 month ago

@arysin ось оновлений список з власних назв, які уживаються принаймні десять разів і двох або більше творах. (дивився лише у перекладах з японської)

Також деякі загальні слова: