Open AlenaMochalina opened 2 months ago
Příprava dat pro modelování je klíčovým krokem v procesu strojového učení. Před samotným modelováním je nutné provést několik kroků, jako je prozkoumání dat, čištění, úprava proměnných a rozdělení dat na trénovací a testovací sady.
[ ] průzkum dat - hotovo
[ ] čištění dat - hotovo
kontrola a ošetření chybějících hodnot – zkontroluj, zda některé sloupce obsahují chybějící hodnoty a rozhodni, jak s nimi naložíš - dataset neobsahuje nulové a duplikované hodnoty
odstranění nepotřebných sloupců – některé sloupce nemusejí mít žádnou přímou souvislost s predikcí nebo mohou být duplikáty:
1.) pro klasifikaci odstraním 3 fearatury: 'CLIENTNUM', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_WalkIn_Delta_2', 'Naive_Bayes_Classifier_Attrition_Flag_Card_Category_Contacts_WalkIn_Delta_1',
2.) pro shlukování odstraním navíc i cílovou proměnnou Attrition_Flag, protože pro shlukování není potřebná.
[ ] úprava proměnných - převedení kategoriálních proměnných na číselné hodnoty – pro modelování musí být všechny kategoriální proměnné převedeny na číselné formáty - stejné pro klasifikaci a shlukování
[ ] standardizace dat - je důležité, aby data byla standardizována, protože algoritmy jako K-means a jiné jsou citlivé na měřítka jednotlivých proměnných. Použijeme StandardScaler pro oba modely.
[ ] rozdělení dat na trenovací a testovací - to se týka jenom klasifikace
Missing values: Identify missing values using isnull() and decide how to handle them (imputation, removal, etc.).
Data formatting: Ensure that all columns have the correct data types (e.g., converting strings to dates or categorical variables).
Duplicate removal: Use drop_duplicates() to ensure there are no duplicate records in the data.
Normalization and scaling: If using models sensitive to value scaling (e.g., K-Means), consider scaling the data using StandardScaler or MinMaxScaler from the sklearn library.