danbi5228 commented 2 years ago

8/10 pm10:30
7.5.1
7.5.2
7.6

njs03332 commented 2 years ago

7.5.2 그레이디언트 부스팅

에이다부스트처럼 앙상블에 이전까지의 오차를 보정하도록 예측기를 순차적으로 추가함
샘플의 가중치를 수정하는 대신 이전 예측기가 만든 잔여 오차에 새로운 예측기를 학습시킴
그레이디언트 트리 부스팅 (그레이디언트 부스티드 회귀 트리) : 결정 트리를 기반 예측기로 사용하는 회귀 문제에 그레이디언트 부스팅 적용
```
from sklearn.tree import DecisionTreeRegressor
```

잡음이 섞인 2차 곡선 형태의 훈련세트에 학습시킴

tree_reg1 = DecisionTreeRegressor(max_depth=2) tree_reg1.fit(X, y)

첫 번째 예측기에서 생긴 잔여 오차에 두 번째 DecisionTreeRegressor를 훈련시킴

y2 = y - tree_reg1.predict(X) tree_reg2 = DecisionTreeRegressor(max_depth=2) tree_reg2.fit(X, y2)

두 번째 예측기가 만든 잔여 오차에 세 번째 회귀 모델을 훈련시킴

y3 = y2 - tree_reg2.predict(X) tree_reg3 = DecisionTreeRegressor(max_depth=2) tree_reg3.fit(X, y3)

모든 트리의 예측을 더해 새로운 샘플에 대한 예측을 만듦 (앙상블 모델)

y_pred = sum(tree.predict(X_new) for tree in (tree_reg1, tree_reg2, tree_reg3))


![image](https://user-images.githubusercontent.com/37107740/183825387-0243b765-bcdb-46a9-852f-dc022713da74.png)

- 왼쪽 열은 세 트리의 예측, 오른쪽 열은 앙상블의 예측
  - 트리가 앙상블에 추가될수록 앙상블의 예측이 점차 좋아짐
- 사이킷런의 GradientBoostingRegressor를 이용한 GBRT 앙상블 훈련
  - 앙상블의 훈련을 제어하는 매개변수 (n_estimators), 결정 트리의 성장을 제어하는 매개변수 (max_depth, min_samples_leaf)
```python
from sklearn.ensemble import GradientBoostingRegressor

gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0)
gbrt.fit(X, y)

learning_rate 변수가 각 트리의 기여 정도를 조절.
- 낮게 설정하는 경우 많은 트리가 필요하지만 일반적으로 성능이 좋아짐 = 축소 (규제 방법의 일종)
- 예측기가 부족한 경우와 너무 많은 경우의 GBRT 앙상블

조기 종료 기법을 사용하여 최적의 트리 수를 찾을 수 있음
- staged_predict() 메서드로 간단하게 구현 가능
- 훈련의 각 단계에서 앙상블에 의해 만들어진 예측기를 순회하는 iterator를 반환함
예시 코드: 120개의 트리로 GBRT 앙상블을 훈련시키고 최적의 트리 수를 찾기 위해 각 훈련 단계에서 검증 오차를 측정. 마지막에 최적의 트리 수를 사용해 새로운 GBRT 앙상블을 훈련시킴

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

X_train, X_val, y_train, y_val = train_test_split(X, y)

gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120)
gbrt.fit(X_train, y_train)

errors = [mean_squared_error(y_val, y_pred)
               for y_pred in gbrt.staged_predict(X_val)]
bst_n_estimators = np.argmin(errors) + 1

gbrt_best = GradientBoostingRegressor(max_depth=2, n_estimators=bst_n_estimators)
gbrt_best.fit(X_train, y_train)

많은 수의 트리를 먼저 훈련시키고 최적의 수를 찾기 위해 살펴보는 대신, 실제로 훈련을 중지하는 방법으로 조기 종료를 구현할 수도 있음
- warm_start=True 로 설정 -> fit() 메서드가 호출될 때 기존 트리를 유지하고 훈련을 추가할 수 있음
예시 코드: 연속해서 다섯 번의 반복 동안 검증 오차가 향상되지 않으면 훈련을 멈춤

gbrt = GradientBoostingRegressor(max_depth=2, warm_start=True)

min_val_error = float("inf")
error_going_up = 0
for n_estimators in range(1, 120):
    gbrt.n_estimators = n_estimators
    gbrt.fit(X_train, y_train)
    y_pred = gbrt.predict(X_val)
    val_error = mean_squared_error(y_val, y_pred)
    if val_error < min_val_error:
        min_val_error= val_error
        error_going_up = 0
    else:
        error_going_up += 1
        if error_going_up == 5:
            break

subsample 매개변수 이용하면 GradientBoostingRegressor에서 각 트리가 훈련할 때 사용할 훈련 샘플의 비율을 지정할 수 있음
- 편향이 높아지는 대신 분산이 낮아지게 됨
- 훈련 속도가 상당히 높아짐
- = 확률적 그레이디언트 부스팅
loss 매개변수를 사용하면 다른 비용함수를 사용할 수도 있음
XGBoost는 최적화된 그레이디언트 부스팅 구현으로 유명한 라이브러리 (extreme gradient boosting)
- 매우 빠른 속도, 확장성, 이식성

import xgboost

xgb_reg = xgboost.SGBRegressor()
xgb_reg.fit(X_train, y_train)
y_pred = xgb_reg.predict(X_val)

# 자동 조기 종료 기능 제공
xgb_reg.fit(X_train, y_train, 
                    eval_set[(X_val, y_val)], early_stopping_rounds=2)
y_pred = xgb_reg.predict(X_val)

givitallugot commented 2 years ago

7.6 스태킹

지금까지는 앙상블에 속한 모든 예측기의 예측을 취합 (ex 직접 투표)
그러나 취합하는 모델을 훈련하려는 방식
마지막에 회귀 작업을 수행, 블렌더 학습을 위해 일반적으로 홀드 아웃 세트 사용

스태킹 작동 방법

훈련 세트를 두 개의 서브셋으로 나눔
첫 번째 데이터로 첫 번째 레이어의 예측기를 사용해서 예측을 만들고 이는 두 번째 세트 (=홀드 아웃)의 훈련 세트로 이용 (=블렌드 학습)
홀드 아웃 세트 예측으로 세 개의 모델이 사용되었다면 세 개의 예측값이 있을 것
훈련 세트가 3차원이 되고 이를 통해 블렌더를 훈련

여러 개를 훈련시키는 것도 가능 (하나는 선형 회귀 블렌더, 하나는 랜덤 포레스트 회귀 블렌더)
세트를 세 개로 나눈 다음
첫 번째 세트는 첫 번째 레이어 훈련을 위해 사용
두 번째 세트는 (첫 번째 레이어 예측기를 훈련 세트로) 두 번째 레이어 훈련을 위해 타깃으로 사용
세 번째 세트는 (두 번째 레이어 예측기를 훈련 세트로) 세 번째 레이어 훈련을 위해 타깃으로 사용

참고

사이킷런은 스태킹을 직접 지원하지 않음
(아래는 핸즈온 책 연습문제 참고)
앞서 만든 투표 기반 분류기만큼 성능을 내지는 못함, 최선의 개별 분류기만큼 뛰어나지는 않음

danbi5228 commented 2 years ago

7.5 부스팅

부스팅: 약한 학습기를 여러 개 연결하여 강한 학습기를 만드는 앙상블 방법
- 앞의 모델을 보완해나가면서 예측기를 학습시키는 것
- 가장 인기 있는 것은 에이다부스트와 그레이디언트 부스팅

7.5.1 에이다부스트

이전 모델이 과소적합했던 훈련 샘플의 가중치를 더 높이는 방식
순서 (반복)
- 첫번째 분류기를 훈련 세트에서 훈련시키고 예측을 만듦
- 알고리즘이 잘못 분류된 훈련샘플의 가중치를 상대적으로 높임
- 두번째 분류기는 업데이트된 가중치를 사용해 훈련 세트를 훈련하고 다시 예측을 만듦
- 이후 다시 가중치를 업데이트
- 단점) 이전 예측기가 훈련되고 평가된 후에 학습될 수 있으므로 병렬화(또는 분할)를 할 수 없음 즉, 배깅이나 페이스팅만큼 확장성이 높지 않음
moons 데이터셋에 훈련시킨 다섯 개의 연속된 예측기의 결정경계 (p. 259)

가중치 업데이트 규칙

각 샘플의 가중치 (w⁽ⁱ⁾)는 초기에 1/m 로 초기화
첫번째 예측기가 학습되고, 가중치가 적용된 에러율 r₁ 이 훈련세트에 대해 계산됨
- 예측기가 정확할수록 가중치가 높아지게 됨
만약 무작위로 예측하는 정도라면 가중치가 0에 가까울 것이고, 이보다도 정확도가 낮으면 가중치는 음수가 됨
- 예측기 (a_j) 가중치
샘플의 가중치 업데이트
- 가중치 업데이트 규칙
모든 샘플의 가중치를 정규화
새 예측기가 업데이트된 가중치를 사용해서 훈련하고 전체 과정 반복
지정된 예측기 수에 도달하거나 완벽한 예측기가 만들어지면 중지됨
모든 예측기의 예측을 계산하고 예측기 가중치 a_j 를 더해 예측 결과를 만드는데, 이 때 가중치 합이 가장 큰 클래스가 예측 결과가 됨

사이킷런 AdaBoostClassifier 기반 코드

from sklearn.ensemble import AdaBoostClassifier

# 200개 결정트리
# max_depth=1인 결정 트리 - 1 결정트리가 결정 노드 하나와 리프노드 2개로 이루어짐
ada_clf = AdaBoostClassifier(
    DecisionTreeClassifier(max_depth=1), n_estimators=200,
    algorithm="SAMME.R", learning_rate=0.5)
ada_clf.fit(X_train, y_train)

과대적합되면 추정기 수(n_estimators) 를 줄이거나, 추정기의 규제를 더 강하게 (learning_rate 숫자 줄이기 등) 해볼 것

njs03332 / ml_study

2022/08/04~2022/08/10 #38