IdoRafael / ML_HW2

0 stars 0 forks source link

Outlier detection and handling #1

Open IdoRafael opened 6 years ago

IdoRafael commented 6 years ago
  1. מבחנים סטטיסטיים על פיצ'רים ספציפיים (Z-score, היסטוגרמה והחלטה על ערך שמעליו אתה מנקה את הדאטה, boxplot).

אם הדאטה לא מתפלג נורמלית אתה יכול להפעיל log ואז אולי זה יעזור ואז תוכל לבצע את מבחן Z.

  1. יש ב-skleran שיטות להבין אם כלל הרשומה היא outlier אבל הייתי נזהר קצת מזה כי לפעמים זה לא מתפקד טוב אם הדאטה מלוכלך מדי.

  2. החלטה מה לעשות עם outlier: להפטר מרשומה, או להפוך ערך outlier ל-null (ואח"כ לטפל בו ב-imputation).

  3. אלגוריתמים לדוגמא:

*plot_lof: זה אלגוריתם יותר טוב מ-eliptic envelop: http://scikit-learn.org/stable/auto_examples/neighbors/plot_lof.html

IdoRafael commented 6 years ago

Manually test features for illogical entries (like negative salary, etc).