LOOKatKimhyein / study_ML

study with papers. ML
0 stars 1 forks source link

supervised learning #2

Open LOOKatKimhyein opened 4 years ago

LOOKatKimhyein commented 4 years ago

Supervised learning

1) 일반화 선형 모델(GLM) 2) 의사결정트리(DT) 3) RANDOM FOREST 4) GBM/LGBM 5) DNN

_ 크기, 위치, 층과 같은 데이터 특징들로 map화된 예측 모델을 학습하는 것이 목표_

LOOKatKimhyein commented 4 years ago

1) 일반화 선형 모델(Generalized Linear Models)

: 선형 회귀(linear regresison)의 발전된 형태 : 종속변수가 정규분포라는 가정을 할 수 없는 경우를 포함하는 선형 모형의 확장 ex1) 종속 변수가 이항, 다항 변수 ex2) 종속 변수가 제한된 count값으로 평균, 분산이 밀접하게 관련된 경우(하루 물 섭취량) : 로지스틱, 포아송 등 함수를 이용해 연속형 변수로 변형

image

image

image

LOOKatKimhyein commented 4 years ago

2) 의사결정트리(DT)

image image

https://scikit-learn.org/stable/modules/tree.html https://www.vebuso.com/2020/01/decision-tree-intuition-from-concept-to-application/

LOOKatKimhyein commented 4 years ago

3) Random Forest

(bias - variance trade off)

image

1) 전체 m개 feature 중, 랜덤하게 k개를 추출 (k<<m) 2) 추출한 k개의 feature중, 최적의 split point인 노드를 계산 3) 계산된 노드를 시작으로 best split을 위한 하위 노드로 분리 4) 1-3 과정을 반복하여 terminal node까지 도달 5) 1-4과정을 반복하여 n개의 트리 생성

https://towardsdatascience.com/understanding-random-forest-58381e0602d2

https://medium.com/@Synced/how-random-forest-algorithm-works-in-machine-learning-3c0fe15b6674

LOOKatKimhyein commented 4 years ago

"프로젝트에서 NA포함된 학습데이터에 대한 RF의 처리 과정 이슈 발생한 경험이 있다. 이에 대한 쉬운 설명을 공유하고자 한다" 출처 : https://www.youtube.com/watch?v=sQ870aTKqiM

전체적인 루틴은 '처음 guess를 점진적으로 발전시켜 적절한 guess값을 찾는다"

  1. RF에서 고려하는 missing value의 두 가지 유형

image

  1. categorical 변수는 just 최빈값 & numeric 변수는 중앙값 na를 가진 sample의 lable이 'NO'이므로, 'NO'label인 샘플 중에서 계산한다. image

  2. 모든 데이터를 rf 전체 tree에 태운다 image

  3. 각 트리에서 leaf node가 같은 sample들을 1로 채우며 proximity matrix작성 image image

전체 tree 갯수로 나누어 확률 proximity 행렬을 만들고 이를 이용해 missing data를 고쳐나간다 image

  1. categorical 변수는 weighted frequency, numeric 변수는 weighted average(가중평균)을 이용한다

image image

image

  1. 'no', 198.5로 추측한 missing value를 교정한다.
  2. missing value가 수렴할 때 까지 반복한다 [ 정리] ================================= 1) RF를 만든다 2) DATA를 모델에 태운다 3) Proximity marix를 계산하여 missing value 재계산

new data 에 na 가 있는 경우

  1. 가능한 label에 대해 data를 중복하여 준비 image
  2. tree에 태운 결과, 해당 데이터에 많이 걸린값을 채택 image

추가적으로 공부할 내용

LOOKatKimhyein commented 4 years ago

GBM(Gradient Boosting Machine)

출처 : https://www.analyticsvidhya.com/blog/2020/02/4-boosting-algorithms-machine-learning/

LOOKatKimhyein commented 4 years ago

XGBoost

T는 트리의 최종 node의 갯수로, 커질수록 XGBoost loss function을 크게해 loss에 패널티를 주는 방식이다. 이로써 overfitting을 방지한다.

LOOKatKimhyein commented 4 years ago

LightGBM

GBDT

https://soobarkbar.tistory.com/33 https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf