Open danbi5228 opened 2 years ago
ExtraTreesClassifier
사용하여 엑스트라 트리를 만들 수 있음BaggingClassifier는 특성 샘플링도 지원
max_features(최대 특성 수), bootstrap_features(중복 허용해서 뽑을지 여부) 두 매개변수로 조절
이는 이미지와 같은 고차원 데이터셋을 다룰 때 유용
랜덤 패치 방식: 특성과 데이터를 모두 샘플링하는 것
랜덤 서브스페이스 방식: 데이터는 모두 사용하되 (bootstrap=False, max_samples=1.0), 특성은 샘플링하는 것 (max_features < 1.0)
특성 샘플링은 더 다양한 예측기를 만들며 편향을 늘리는 대신 분산을 낮춤
from sklearn.datasets import load_iris
iris = load_iris()
rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1)
rnd_clf.fit(iris["data"[, iris["target"])
for name, score in zip(iris["feature_names"], rnd_clf.feature_importances_):
print(name, score)
유사한 방법으로 MNIST 데이터셋에 랜덤 포레스트 분류기를 훈련시키고 각 픽셀의 중요도를 그래프로 나타낼 수 있음
랜덤 포레스트는 특성을 선택해야 할 때 어떤 특성이 중요한지 빠르게 확인할 수 있어 매우 편리함
8/3 pm 10:30