hdonghun / Python_analysis-visualization

practice Kaggle study Myself
1 stars 0 forks source link

#One-hot encoding #7

Open hdonghun opened 2 years ago

hdonghun commented 2 years ago

One-hot encoding

· 범주형 데이터는 분석단계에서 계산이 어렵기 때문에 숫자형으로 변경이 필요함

· 범주형 데이터의 각 범주(category)를 column레벨로 변경

· 해당 범주에 해당하면 1, 아니면 0으로 채우는 인코딩 기법 (n개의 단어가 있다면, n개의 단어의 배열을 n차원 벡터로 표현할 수 있을 것이다. · pandas.get_dummies() 함수 사용

· drop_first : 첫번째 카테고리 값은 사용하지 않음