Description

For this what-if analysis, we want to add support for CleanML data cleaning operations. For a list of operations, see here
But not all of their data cleaning methods are properly integrated into the framework, so we can only use a subset of them easily.
We can also add support for additional mislabel cleaning methods
- CleanLab has a very nice API that we can use to wrap the ML model
- We can implement training data cleaning selected based on their Shapley values
The interface could be that users give a set of pairs with column name and error type and then we try out different cleaning techniques and output a report. In the case of mislabel, we do not need a column name.

Potential set of data cleaning methods

missing values
- "delete": MVCleaner("delete")
- "impute_mean_mode": MVCleaner("impute", num="mean", cat="mode")
- "impute_mean_dummy": MVCleaner("impute", num="mean", cat="dummy")
- "impute_median_mode": MVCleaner("impute", num="median", cat="mode")
- "impute_median_dummy": MVCleaner("impute", num="median", cat="dummy")
- "impute_mode_mode": MVCleaner("impute", num="mode", cat="mode")
- "impute_mode_dummy": MVCleaner("impute", num="mode", cat="dummy")
outliers
- "clean_SD_impute_mean_dummy": OutlierCleaner(detect_method="SD", repairer=MVCleaner("impute", num="mean", cat="dummy"))
- "clean_SD_impute_mode_dummy": OutlierCleaner(detect_method="SD", repairer=MVCleaner("impute", num="mode", cat="dummy"))
- "clean_SD_impute_median_dummy": OutlierCleaner(detect_method="SD", repairer=MVCleaner("impute", num="median", cat="dummy"))
- "clean_IQR_impute_mean_dummy": OutlierCleaner(detect_method="IQR", repairer=MVCleaner("impute", num="mean", cat="dummy"))
- "clean_IQR_impute_mode_dummy": OutlierCleaner(detect_method="IQR", repairer=MVCleaner("impute", num="mode", cat="dummy"))
- "clean_IQR_impute_median_dummy": OutlierCleaner(detect_method="IQR", repairer=MVCleaner("impute", num="median", cat="dummy"))
- "clean_IF_impute_mean_dummy": OutlierCleaner(detect_method="IF", repairer=MVCleaner("impute", num="mean", cat="dummy"))
- "clean_IF_impute_mode_dummy": OutlierCleaner(detect_method="IF", repairer=MVCleaner("impute", num="mode", cat="dummy"))
- "clean_IF_impute_median_dummy": OutlierCleaner(detect_method="IF", repairer=MVCleaner("impute", num="median", cat="dummy"))
duplicates
- DuplicatesCleaner()
mislabel
- CleanLab
- ShapleyValues

stefan-grafberger / mlwhatif

DataCleaning What-If Analysis #12

Description

Potential set of data cleaning methods