brown-uk / dict_uk

Project to generate POS tag dictionary for Ukrainian language
GNU General Public License v3.0
546 stars 71 forks source link

Як згенерувати файл з лемами lemmas.txt ? #312

Closed abratashov closed 1 year ago

abratashov commented 1 year ago

Бо після запуску генеруються лише файли:

./gradlew expand

=>

/out/dict_corp_lt.txt
/out/dict_corp_vis.txt
/out/words.txt
/out/words_spell.txt
/out/zroll_corp.sh

І в файлі words.txt ~3.7 млн всіх словоформ, а не лем:

...
аакувата
аакувате
аакуватий
аакуватим
аакуватими
аакуватих
аакуваті
аакуватій
аакуватім
аакуватого
аакуватої
аакуватому
аакуватою
аакувату
...

Також чи можливо згенерувати файл з лемами у форматі: [лема -> словоформа 1, словоформа 2, словоформа 3, ... ]

?

Дякую!

arysin commented 1 year ago

Найпростіше згенерувати список лем з повного словника, напр. cut -f 2 -d ' ' dict_corp_lt.txt | sort -u

arysin commented 1 year ago

Формат лема -> словоформа можна зробити чимсь таким: cat dict_corp_vis.txt | sed -r 's/ [a-z].*//' | tr '\n' '@' | sed -r 's/@ /,/g' | tr '@' '\n'

abratashov commented 1 year ago

Ага, працює, дуже дякую!