Ошибка в выводе в p2_modeling.ipynb

polinep72 commented 1 year ago

Дмитрий, добрый день У вас написано что: Пропущенные значения отсутствуют. но в теле ноутбука есть значение adopted % 1

DKudryavtsev commented 1 year ago

Евгений, спасибо за замечание и интерес к проекту! Да, действительно. При компиляции данных в p1_dataset_compilation.ipynb для признака "adopted" есть явная замена значения "мало данных" на np.NaN - по одному региону отсутствуют данные, так что формулировка о пропущенных значениях не совсем верная. Однако это пропущенное значение не влияет на результат последующих шагов, т.к. признак "adopted" не входит в признаковое пространство кластеризации. При расчете корреляций в p3_analysis.ipynb пропущенное значение заменяется на медиану, также можно было бы использовать параметр nan_policy='omit' в scipy.stats.kruskal.

polinep72 commented 1 year ago

А с нулевыми значениями нам ничего не надо делать?

DKudryavtsev commented 1 year ago

С какими именно? Это зависит от признака, каждый нужно оценивать индивидуально.

polinep72 commented 1 year ago

Дмитрий еще вопрос, а почему у меня ваш код в p3_analysis.ipynb In[20]: получается рисунок в 4-мя данными (retail почему-то не попадает на график, как у Вас)

и еще обратил внимание что при переименовании 'retail norm' в "retail" появляется 2-ой столбец "retail"

DKudryavtsev commented 1 year ago

Рисунок генерируется непосредственно кодом в ноутбуке. Отличия могут быть вызваны множеством причин: в код были внесены изменения, нарушена последовательность выполнения ячеек, различаются версии библиотек и т.д. Названия признаков для рисунка берутся из переменной features = medians.columns, а величины - из рядов таблицы (DataFrame) medains_scaled, например medians_scaled.loc[0].values

polinep72 commented 1 year ago

Понял проблему, в предварительных файлах вид данных был str, а не float или int/ Спасибо

DKudryavtsev / RussiaRegions

Ошибка в выводе в p2_modeling.ipynb #1