Hub of open data for Russia and other cyrillic countries / Хаб открытых данных на русском языке
8
stars
5
forks
source link
Извлечь данные из сайта Управления статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и загрузить их в хаб открытых данных #20
На сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и описанием структур данных в DOC файлах.
Собрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных
Задача
написать парсеры и выгрузить данные структуры данных в форматах CSV и JSON
выгрузить данные в формате NESSTAR и Excel
загрузить данные в хаб открытых данных
Требования
открытый исходный код в Github под свободной лицензией
межплатформенный код (возможность запуска на Linux/Windows)
предусмотреть перенос всех метаданных в CKAN в виде тегов и атрибутов
переносить все данные в CKAN или на отдельный хостинг (например, в Github)
Пожелания
реализация в виде программы командной строки или веб-приложения
возможность запуска на MacOSX
использовать скриптовые языки такие как Python, Ruby, R или другие.
преобразовать данные из формата NESSTAR в форматы удобные для работы, такие как CSV и загрузить их в github и/или хаб открытых данных
Оценки трудоёмкости
Ожидаемое время на задачу не более 1-3 дня (8-24 часа).
Цель
На сайте управления Росстата http://obdx.gks.ru/ публикуются результаты обследования домохозяйств с 2003 по 2012 годы, в форматах NESSTAR (http://www.nesstar.com/), Excel и описанием структур данных в DOC файлах.
Собрать данные из базы данных сайта управление статистики уровня жизни и обследований домашних хозяйств Федеральной службы государственной статистики (Росстат) и перенести на хаб открытых данных
Задача
Требования
Пожелания
Оценки трудоёмкости
Ожидаемое время на задачу не более 1-3 дня (8-24 часа).
Вспомогательные материалы: