supervised learning

LOOKatKimhyein commented 4 years ago

labeled data
direct feedback
predict outcome or future -> "classification" "regression"

1) 일반화 선형 모델(GLM) 2) 의사결정트리(DT) 3) RANDOM FOREST 4) GBM/LGBM 5) DNN

_집 크기, 위치, 층과 같은 데이터 특징들로 map화된 예측 모델을 학습하는 것이 목표_

LOOKatKimhyein commented 4 years ago

1) 일반화 선형 모델(Generalized Linear Models)

: 선형 회귀(linear regresison)의 발전된 형태 : 종속변수가 정규분포라는 가정을 할 수 없는 경우를 포함하는 선형 모형의 확장 ex1) 종속 변수가 이항, 다항 변수 ex2) 종속 변수가 제한된 count값으로 평균, 분산이 밀접하게 관련된 경우(하루 물 섭취량) : 로지스틱, 포아송 등 함수를 이용해 연속형 변수로 변형

LOOKatKimhyein commented 4 years ago

2) 의사결정트리(DT)

interpretable
the deeper the tree, the more complex the decision rules and the fitter the model..?
연속형, 범주형 모두 가능

https://scikit-learn.org/stable/modules/tree.html https://www.vebuso.com/2020/01/decision-tree-intuition-from-concept-to-application/

LOOKatKimhyein commented 4 years ago

3) Random Forest

classificaton, regression 모두 가능(범주, 연속)
의사결정트리의 과적합, 성능 폭이 큰 문제를 보완
overfitting이 적다(depth 가 너무 깊으면 과대적합가능성 有)
missing value 처리용이?
black box로 결과를 설명할 수 없다
bagging으로 low bias는 유지하고 high variance는 줄이는 방법

(bias - variance trade off)

bagging을 통해 각 트리들은 low correlation -> generalization 일반화 성능 향상
feature bagging(보통 sqrt(n))
***feature을 선택하는 이유는 배깅을 통해 얻은 트리들 간의 상관성에 있다. 즉, 한 개의 feature또는 극소수의 feature들이 결과에 대해 강한 예측 성능을 지닌다면, 훈련 과정 중 여러 트리 노드에서 이러한 feature들이 중복되어 선택되고 결과적으로 트리들이 상관화되기 때문이다. -> '신용등급'이 보험사기여부에 큰 영향을 미치는 변수라면, 여러 트리의 top split 에서 '신용등급'이 나와 트리 간 상관성이 높아지므로, feature bagging 을 통해 다양한 후보 컬럼에게 기회 제공하여 variance를 낮춘다
***the last advantage is that the Random Forest classifier can be modeled for categorical values.

1) 전체 m개 feature 중, 랜덤하게 k개를 추출 (k<<m) 2) 추출한 k개의 feature중, 최적의 split point인 노드를 계산 3) 계산된 노드를 시작으로 best split을 위한 하위 노드로 분리 4) 1-3 과정을 반복하여 terminal node까지 도달 5) 1-4과정을 반복하여 n개의 트리 생성

https://towardsdatascience.com/understanding-random-forest-58381e0602d2

https://medium.com/@Synced/how-random-forest-algorithm-works-in-machine-learning-3c0fe15b6674

LOOKatKimhyein commented 4 years ago

"프로젝트에서 NA포함된 학습데이터에 대한 RF의 처리 과정 이슈 발생한 경험이 있다. 이에 대한 쉬운 설명을 공유하고자 한다" 출처 : https://www.youtube.com/watch?v=sQ870aTKqiM

전체적인 루틴은 '처음 guess를 점진적으로 발전시켜 적절한 guess값을 찾는다"

RF에서 고려하는 missing value의 두 가지 유형

모델 생성에 쓰이는 original data set의 feature
test data set내의 NA

categorical 변수는 just 최빈값 & numeric 변수는 중앙값 na를 가진 sample의 lable이 'NO'이므로, 'NO'label인 샘플 중에서 계산한다.
모든 데이터를 rf 전체 tree에 태운다
각 트리에서 leaf node가 같은 sample들을 1로 채우며 proximity matrix작성

전체 tree 갯수로 나누어 확률 proximity 행렬을 만들고 이를 이용해 missing data를 고쳐나간다

categorical 변수는 weighted frequency, numeric 변수는 weighted average(가중평균)을 이용한다

'no', 198.5로 추측한 missing value를 교정한다.
missing value가 수렴할 때 까지 반복한다 [ 정리] ================================= 1) RF를 만든다 2) DATA를 모델에 태운다 3) Proximity marix를 계산하여 missing value 재계산

new data 에 na 가 있는 경우

가능한 label에 대해 data를 중복하여 준비
tree에 태운 결과, 해당 데이터에 많이 걸린값을 채택

추가적으로 공부할 내용

test data 에서 연속형 label을 가진 NA feature라면?

LOOKatKimhyein commented 4 years ago

GBM(Gradient Boosting Machine)

말그대로 gradient를 이용하여 Boosting하는 알고리즘
Sequential한 weak learner들을 residual을 줄여나가는 방향으로 결합하여 object function과의 loss를 줄여나가는 방식
overfitting이 되기 쉽다는 단점!
***gradient boosting machine의 모든 약한 분류기는 DT ???
e.g.) lightgbm, Catboost, XGboost

출처 : https://www.analyticsvidhya.com/blog/2020/02/4-boosting-algorithms-machine-learning/

LOOKatKimhyein commented 4 years ago

XGBoost

GBM은 residual을 줄이는 방향의 알고리즘으로 overfitting이 되기 쉽다 -> 이를 보완한 알고리즘이 XGBoost
다양한 regulation기술로 overfittinf을 줄이고 전체적인 성능을 향상 XGBoost = GBM + Regulation

T는 트리의 최종 node의 갯수로, 커질수록 XGBoost loss function을 크게해 loss에 패널티를 주는 방식이다. 이로써 overfitting을 방지한다.

LOOKatKimhyein commented 4 years ago

LightGBM

GBM 은 모든 인스턴스, 모든 feature를 조사하여 split point를 정한다. -> feature 와 instance가 커질 수록, 비용/계산 복잡도도 커진다 -> 이를 보완한게 lightGBM
GOSS ; gradient가 큰 인스턴스일수록 information gain이 크다는 계산하에 높은 gradient의 데이터를 sampling하여 인스턴스를 줄인다
***EFB : feature의 수를 줄이는 것으로 상호 배타적인 feature들을 bundling
GBDT = GOSS + EFB 합친 개념

GBDT

xgb DT 모델을 구축하는데에 가장 많은 시간이 소요됨, 그중 the best split points를 찾는게 가장 多
split point 를 찾는 가장 대표적인 알고리즘은 1) pre-sorted algo-(features를 미리 정렬하여 가능한 분할지점 열거) 2) histogram-base algorithm(연속적인 feature값을 이산적인 bins로 binning, 학습속도와 메모리 용량 측면에서 보다 효율적이다)
<xgb_exa : pre-sorted algorithm xgb_his (histogram-based algorithm) lgb_baseline : lgbm with EFB LightGBM : lgb_baseline with GOSS and EFB>
같은 accuracy 에서 lgbm이 가장 빠르다.

https://soobarkbar.tistory.com/33 https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf

LOOKatKimhyein / study_ML