Closed accplan closed 3 years ago
Спасибо за патч!
Если нужно быстрое решение просто
from corus... import load_bz2_lines, parse_lenta
lines = load_bz2_lines(path)
parse_lenta(lines)
...
окей, понятно, посмотрю сегодня попозже
такс, вроде всё
аа вот как, совсем всё неправильно понял) Ну ладно, будем надеяться, что в следующей версии они формат не поменяют и не придётся load_lenta3 добавлять)
Добавил поддержку датасета Ленты ру версии 1.1 https://github.com/yutkin/Lenta.Ru-News-Dataset/releases/tag/v1.1 По сравнению с 1.0 они добавили колонку "Дата публикации" и запаковали в архив bz2 вместо gz. Функция load_lenta теперь поддерживает и 1.0, и 1.1, а также распакованный CSV