Конкретность:
Необходимо провести EDA имеющихся данных в Object Storage ввиде csv файлов. Для этого уже есть поднятый Spark кластер. Необходимо на нем провести анализ данных. Также необходимо рассчитать некоторые признаки по типу количества транзакций в разные промежутки времени (за час, день, неделю) с каждой карты, вычислить IP адреса и местоположение исходящей и входящей транзакции. По каждому IP адресу из какого количества карт были попытки транзакций. Наиболее частые местоположения исходящих транзакций с этой карты, и сравнить текущее местоположение с этим наиболее частым/частыми (2 или 3). И т.д.
Измеримость:
Необходимы результаты по проведенному EDA и перечисленные в теле задачи сгенерированные признаки.
Значимость:
Необходимо для корректного построения МЛ модели и улучшения качества моделей за счет знаний о природе данных и генерации новых признаков.
Конкретность: Необходимо провести EDA имеющихся данных в Object Storage ввиде csv файлов. Для этого уже есть поднятый Spark кластер. Необходимо на нем провести анализ данных. Также необходимо рассчитать некоторые признаки по типу количества транзакций в разные промежутки времени (за час, день, неделю) с каждой карты, вычислить IP адреса и местоположение исходящей и входящей транзакции. По каждому IP адресу из какого количества карт были попытки транзакций. Наиболее частые местоположения исходящих транзакций с этой карты, и сравнить текущее местоположение с этим наиболее частым/частыми (2 или 3). И т.д.
Измеримость: Необходимы результаты по проведенному EDA и перечисленные в теле задачи сгенерированные признаки.
Значимость: Необходимо для корректного построения МЛ модели и улучшения качества моделей за счет знаний о природе данных и генерации новых признаков.
Ограничение по времени: 5 дней.