[RU] Собрать материалы связанные с Арменией из Госкаталога музейного фонда РФ

Goal

Цель в создании набора/наборов данных об объектах культуры связанных с Арменией из Госкаталога музейного фонда РФ (https://goskatalog.ru).

Tasks

Необходимо подключится к сайту Госкаталога музейного фонда РФ (https://goskatalog.ru) и/или к сайту открытых данных Минкультуры РФ (https://opendata.mkrf.ru) и отфильтровать опубликованные там данные на предмет произведений искусства и экспонатов связанных с Арменией, армянским языком, историей и культурой.

Поскольку в госкаталоге нет привязки к стране и к определённой национальной культуре, то фильтровать необходимо по ключевым словам.

Очень примерные слова: армянский, восточный, Армения, Закавказье, Ереван, Эривань, Александрополь, Ленинакан, Кировская, Карабах, Эрзерум, Курс, Елизаветполь, Нахичевань, Ахалкалаки, Сарьян, Айвазовский, Ханджян, Кочар, Хачатурян, Бабаджанян, Таривердиев, Суренянц, Абовян, хачкар, Налбандян, Лорис-Меликов, Лазаревы, Тифлис, Шуши, Шуша, Эчмиадзин, Баку, Арташат, Обрели, Геноцид, Минас, Анатолия, Кавказ, Урарту

Этот список слов нужно расширить, проверить насколько они точны и не охватывают ли какие-то лишние, не относящиеся к армянской культуре, произведения искусства.

Собранные данные необходимо проверить на наличие дубликатов, того что одно и то же произведение искусства не подпадает под разные ключевые слова и собрать итоговый набор данных в формате JSON или JSON lines.

После чего необходимо выгрузить все изображения экспонатов в этом наборе данных и положить в какое-либо временное хранилище из которого команда Open Data Armenia перенесёт в постоянное.

Context

У Госкаталога есть недокументированное API, пример его использования https://goskatalog.ru/muzfo-rest/rest/exhibits/ext?&statusIds=6&publicationLimit=false&calcCountsType=0&dirFields=desc&limit=100&offset=0&q=%D0%95%D1%80%D0%B5%D0%B2%D0%B0%D0%BD&sortFields=id

Если использовать это API то необходимо самостоятельно разобраться в том как оно устроено, определить точки подключения к API можно изучив код страниц Госкаталога.

А также этот набор данных доступен через портал открытых данных Минкультуры РФ для выгрузки и через API https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits

В данных есть поле "Место нахождения" где также можно искать по месту создания произведения. Например, поиск по слову "Ереван", например, результат поиска через портал открытых данных в виде записи https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits/4/43346235

Requirements

создайте репозиторий для кода и данных на Github, опубликуйте их под отрытой лицензией, например, MIT

Wishes

Желательно если Вы хотя бы немного опишите код чтобы в будущем кто-либо мог бы его запустить чтобы собрать эти данные в случае если они обновятся в первоисточнике. Особенно хорошо будет если парсер будет создан в виде утилиты командной строки

Resources

Ссылка на систему госкаталога музейного фонда РФ https://goskatalog.ru
ссылка на набор открытых данных на портале открытых данных Минкультуры РФ https://opendata.mkrf.ru/opendata/7705851331-museum-exhibits

Prepared by

Задача подготовлена командой Open Data Armenia

opendataam / opendatam-tasks