Цель в создании набора/наборов данных об объектах культуры связанных с Арменией из Госкаталога музейного фонда РФ (https://goskatalog.ru).
Tasks
Необходимо подключится к сайту Госкаталога музейного фонда РФ (https://goskatalog.ru) и/или к сайту открытых данных Минкультуры РФ (https://opendata.mkrf.ru) и отфильтровать опубликованные там данные на предмет произведений искусства и экспонатов связанных с Арменией, армянским языком, историей и культурой.
Поскольку в госкаталоге нет привязки к стране и к определённой национальной культуре, то фильтровать необходимо по ключевым словам.
Этот список слов нужно расширить, проверить насколько они точны и не охватывают ли какие-то лишние, не относящиеся к армянской культуре, произведения искусства.
Собранные данные необходимо проверить на наличие дубликатов, того что одно и то же произведение искусства не подпадает под разные ключевые слова и собрать итоговый набор данных в формате JSON или JSON lines.
После чего необходимо выгрузить все изображения экспонатов в этом наборе данных и положить в какое-либо временное хранилище из которого команда Open Data Armenia перенесёт в постоянное.
Если использовать это API то необходимо самостоятельно разобраться в том как оно устроено, определить точки подключения к API можно изучив код страниц Госкаталога.
создайте репозиторий для кода и данных на Github, опубликуйте их под отрытой лицензией, например, MIT
Wishes
Желательно если Вы хотя бы немного опишите код чтобы в будущем кто-либо мог бы его запустить чтобы собрать эти данные в случае если они обновятся в первоисточнике. Особенно хорошо будет если парсер будет создан в виде утилиты командной строки
Goal
Цель в создании набора/наборов данных об объектах культуры связанных с Арменией из Госкаталога музейного фонда РФ (https://goskatalog.ru).
Tasks
Необходимо подключится к сайту Госкаталога музейного фонда РФ (https://goskatalog.ru) и/или к сайту открытых данных Минкультуры РФ (https://opendata.mkrf.ru) и отфильтровать опубликованные там данные на предмет произведений искусства и экспонатов связанных с Арменией, армянским языком, историей и культурой.
Поскольку в госкаталоге нет привязки к стране и к определённой национальной культуре, то фильтровать необходимо по ключевым словам.
Очень примерные слова: армянский, восточный, Армения, Закавказье, Ереван, Эривань, Александрополь, Ленинакан, Кировская, Карабах, Эрзерум, Курс, Елизаветполь, Нахичевань, Ахалкалаки, Сарьян, Айвазовский, Ханджян, Кочар, Хачатурян, Бабаджанян, Таривердиев, Суренянц, Абовян, хачкар, Налбандян, Лорис-Меликов, Лазаревы, Тифлис, Шуши, Шуша, Эчмиадзин, Баку, Арташат, Обрели, Геноцид, Минас, Анатолия, Кавказ, Урарту
Этот список слов нужно расширить, проверить насколько они точны и не охватывают ли какие-то лишние, не относящиеся к армянской культуре, произведения искусства.
Собранные данные необходимо проверить на наличие дубликатов, того что одно и то же произведение искусства не подпадает под разные ключевые слова и собрать итоговый набор данных в формате JSON или JSON lines.
После чего необходимо выгрузить все изображения экспонатов в этом наборе данных и положить в какое-либо временное хранилище из которого команда Open Data Armenia перенесёт в постоянное.
Context
У Госкаталога есть недокументированное API, пример его использования https://goskatalog.ru/muzfo-rest/rest/exhibits/ext?&statusIds=6&publicationLimit=false&calcCountsType=0&dirFields=desc&limit=100&offset=0&q=%D0%95%D1%80%D0%B5%D0%B2%D0%B0%D0%BD&sortFields=id
Если использовать это API то необходимо самостоятельно разобраться в том как оно устроено, определить точки подключения к API можно изучив код страниц Госкаталога.
А также этот набор данных доступен через портал открытых данных Минкультуры РФ для выгрузки и через API https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits
В данных есть поле "Место нахождения" где также можно искать по месту создания произведения. Например, поиск по слову "Ереван", например, результат поиска через портал открытых данных в виде записи https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits/4/43346235
Requirements
Wishes
Желательно если Вы хотя бы немного опишите код чтобы в будущем кто-либо мог бы его запустить чтобы собрать эти данные в случае если они обновятся в первоисточнике. Особенно хорошо будет если парсер будет создан в виде утилиты командной строки
Resources
Prepared by
Задача подготовлена командой Open Data Armenia