Open polinep72 opened 1 year ago
Евгений, спасибо за замечание и интерес к проекту! Да, действительно. При компиляции данных в p1_dataset_compilation.ipynb для признака "adopted" есть явная замена значения "мало данных" на np.NaN - по одному региону отсутствуют данные, так что формулировка о пропущенных значениях не совсем верная. Однако это пропущенное значение не влияет на результат последующих шагов, т.к. признак "adopted" не входит в признаковое пространство кластеризации. При расчете корреляций в p3_analysis.ipynb пропущенное значение заменяется на медиану, также можно было бы использовать параметр nan_policy='omit' в scipy.stats.kruskal.
А с нулевыми значениями нам ничего не надо делать?
С какими именно? Это зависит от признака, каждый нужно оценивать индивидуально.
Дмитрий еще вопрос, а почему у меня ваш код в p3_analysis.ipynb In[20]: получается рисунок в 4-мя данными (retail почему-то не попадает на график, как у Вас)
и еще обратил внимание что при переименовании 'retail norm' в "retail" появляется 2-ой столбец "retail"
Рисунок генерируется непосредственно кодом в ноутбуке. Отличия могут быть вызваны множеством причин: в код были внесены изменения, нарушена последовательность выполнения ячеек, различаются версии библиотек и т.д. Названия признаков для рисунка берутся из переменной features = medians.columns
, а величины - из рядов таблицы (DataFrame) medains_scaled, например medians_scaled.loc[0].values
Понял проблему, в предварительных файлах вид данных был str, а не float или int/ Спасибо
Дмитрий, добрый день У вас написано что: Пропущенные значения отсутствуют. но в теле ноутбука есть значение adopted % 1