Описание проекта
Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.
Цели проекта
Необходимо спрогнозировать, уйдёт клиент из банка в ближайшее время или нет.
Построим модель с наибольшим значением F1-меры. По условиям проекта нужно довести метрику минимум до 0.59. Проверим F1-меру на тестовой выборке.
Дополнительно необходимопровести исследование метрики AUC-ROC и сравнить её значение с F1-мерой.
Исходные данные
Нам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком.
Источник данных: https://www.kaggle.com/barelydedicated/bank-customer-churn-modeling
Итоги исслевания.
В ходе данной работы мы провели исследование данных об оттоке клиентов банка.
Подготовлены исходные данные: удалены признаки, не влияющие на целевой признак, заполнены пропуски, категориальные признаки переведены в численные. Проведено масштабирование признаков.
Проведено исследование моделей машинного обучения Логистическая регрессия, Дерево решений, Случайный лес на выборках с разным способом заполнения без учёта дисбаланса классов.
Проведено исследование методов борьбы с дисбалансом: встроенный параметр class_weight, upscaling, downscaling. Выбрали лучший и проверили все три модели на валидационной выборке.
Выбрав лучшую модель по метрике F1, мы провели проверку модели на тестовой выборке.
Модель RandomForestClassifier с параметрами depth=16, n_estimators=50, min_samples_leaf = 2, на выборке с заполнением методом SimpleImputer median и с методом балансирования классов upscaling показала на тестовой выборке F1-метрику = 0.608 и AUC_ROC=0.842
Построена ROC кривая для данной модели, а проведена проверка адекватности модели.