Closed abratashov closed 1 year ago
Найпростіше згенерувати список лем з повного словника, напр.
cut -f 2 -d ' ' dict_corp_lt.txt | sort -u
Формат лема -> словоформа можна зробити чимсь таким:
cat dict_corp_vis.txt | sed -r 's/ [a-z].*//' | tr '\n' '@' | sed -r 's/@ /,/g' | tr '@' '\n'
Ага, працює, дуже дякую!
Бо після запуску генеруються лише файли:
І в файлі
words.txt
~3.7 млн всіх словоформ, а не лем:Також чи можливо згенерувати файл з лемами у форматі: [лема -> словоформа 1, словоформа 2, словоформа 3, ... ]
?
Дякую!