Open LOOKatKimhyein opened 4 years ago
: 선형 회귀(linear regresison)의 발전된 형태 : 종속변수가 정규분포라는 가정을 할 수 없는 경우를 포함하는 선형 모형의 확장 ex1) 종속 변수가 이항, 다항 변수 ex2) 종속 변수가 제한된 count값으로 평균, 분산이 밀접하게 관련된 경우(하루 물 섭취량) : 로지스틱, 포아송 등 함수를 이용해 연속형 변수로 변형
https://scikit-learn.org/stable/modules/tree.html https://www.vebuso.com/2020/01/decision-tree-intuition-from-concept-to-application/
classificaton, regression 모두 가능(범주, 연속)
의사결정트리의 과적합, 성능 폭이 큰 문제를 보완
overfitting이 적다(depth 가 너무 깊으면 과대적합가능성 有)
missing value 처리용이?
black box로 결과를 설명할 수 없다
bagging으로 low bias는 유지하고 high variance는 줄이는 방법
(bias - variance trade off)
bagging을 통해 각 트리들은 low correlation -> generalization 일반화 성능 향상
feature bagging(보통 sqrt(n))
***feature을 선택하는 이유는 배깅을 통해 얻은 트리들 간의 상관성에 있다. 즉, 한 개의 feature또는 극소수의 feature들이 결과에 대해 강한 예측 성능을 지닌다면, 훈련 과정 중 여러 트리 노드에서 이러한 feature들이 중복되어 선택되고 결과적으로 트리들이 상관화되기 때문이다. -> '신용등급'이 보험사기여부에 큰 영향을 미치는 변수라면, 여러 트리의 top split 에서 '신용등급'이 나와 트리 간 상관성이 높아지므로, feature bagging 을 통해 다양한 후보 컬럼에게 기회 제공하여 variance를 낮춘다
***the last advantage is that the Random Forest classifier can be modeled for categorical values.
1) 전체 m개 feature 중, 랜덤하게 k개를 추출 (k<<m) 2) 추출한 k개의 feature중, 최적의 split point인 노드를 계산 3) 계산된 노드를 시작으로 best split을 위한 하위 노드로 분리 4) 1-3 과정을 반복하여 terminal node까지 도달 5) 1-4과정을 반복하여 n개의 트리 생성
https://towardsdatascience.com/understanding-random-forest-58381e0602d2
https://medium.com/@Synced/how-random-forest-algorithm-works-in-machine-learning-3c0fe15b6674
"프로젝트에서 NA포함된 학습데이터에 대한 RF의 처리 과정 이슈 발생한 경험이 있다. 이에 대한 쉬운 설명을 공유하고자 한다" 출처 : https://www.youtube.com/watch?v=sQ870aTKqiM
전체적인 루틴은 '처음 guess를 점진적으로 발전시켜 적절한 guess값을 찾는다"
categorical 변수는 just 최빈값 & numeric 변수는 중앙값 na를 가진 sample의 lable이 'NO'이므로, 'NO'label인 샘플 중에서 계산한다.
모든 데이터를 rf 전체 tree에 태운다
각 트리에서 leaf node가 같은 sample들을 1로 채우며 proximity matrix작성
전체 tree 갯수로 나누어 확률 proximity 행렬을 만들고 이를 이용해 missing data를 고쳐나간다
출처 : https://www.analyticsvidhya.com/blog/2020/02/4-boosting-algorithms-machine-learning/
XGBoost
T는 트리의 최종 node의 갯수로, 커질수록 XGBoost loss function을 크게해 loss에 패널티를 주는 방식이다. 이로써 overfitting을 방지한다.
GBDT
https://soobarkbar.tistory.com/33 https://papers.nips.cc/paper/6907-lightgbm-a-highly-efficient-gradient-boosting-decision-tree.pdf
Supervised learning
1) 일반화 선형 모델(GLM) 2) 의사결정트리(DT) 3) RANDOM FOREST 4) GBM/LGBM 5) DNN
_집 크기, 위치, 층과 같은 데이터 특징들로 map화된 예측 모델을 학습하는 것이 목표_