Исходные данные: ~ 1000 реализаций по 10 переменным
Создать функцию обучения линейной модели с регуляризацией (ridge / lasso / ElasticNet).
Создать функцию оценки качества построенной модели (с использованием доли объясненной моделью дисперсии R2).
Создать функцию, которая производит сокращение числа переменных и реализаций в датасете:
3.1. Сокращение числа переменных - использование анализа главных компонентов (PCA). Для определения количества компонентов использовать некоторый критерий, например, Кайзера-Харриса.
3.2. Полученный в п 3.1. датесет подвергнуть кластерному анализу методом k-средних с заданным числом кластеров. В качестве выхода этапа взять центроиды полученных кластеров.
Применить функцию п. 1 к исходному набору данных и к результату п. 3.
Применить функцию п. 2 к результатам п. 4 и сделать выводы о качестве построенных моделей до и после сокращения размерности и числа реализаций датасета.
Исходные данные: ~ 1000 реализаций по 10 переменным
Создать функцию обучения линейной модели с регуляризацией (ridge / lasso / ElasticNet).
Создать функцию оценки качества построенной модели (с использованием доли объясненной моделью дисперсии R2).
Создать функцию, которая производит сокращение числа переменных и реализаций в датасете:
3.1. Сокращение числа переменных - использование анализа главных компонентов (PCA). Для определения количества компонентов использовать некоторый критерий, например, Кайзера-Харриса.
3.2. Полученный в п 3.1. датесет подвергнуть кластерному анализу методом k-средних с заданным числом кластеров. В качестве выхода этапа взять центроиды полученных кластеров.
Применить функцию п. 1 к исходному набору данных и к результату п. 3.
Применить функцию п. 2 к результатам п. 4 и сделать выводы о качестве построенных моделей до и после сокращения размерности и числа реализаций датасета.