boringType / fraud_detection

0 stars 0 forks source link

EDA, feature engineering #8

Open boringType opened 1 year ago

boringType commented 1 year ago

Конкретность: Необходимо провести EDA имеющихся данных в Object Storage ввиде csv файлов. Для этого уже есть поднятый Spark кластер. Необходимо на нем провести анализ данных. Также необходимо рассчитать некоторые признаки по типу количества транзакций в разные промежутки времени (за час, день, неделю) с каждой карты, вычислить IP адреса и местоположение исходящей и входящей транзакции. По каждому IP адресу из какого количества карт были попытки транзакций. Наиболее частые местоположения исходящих транзакций с этой карты, и сравнить текущее местоположение с этим наиболее частым/частыми (2 или 3). И т.д.

Измеримость: Необходимы результаты по проведенному EDA и перечисленные в теле задачи сгенерированные признаки.

Значимость: Необходимо для корректного построения МЛ модели и улучшения качества моделей за счет знаний о природе данных и генерации новых признаков.

Ограничение по времени: 5 дней.