2022/03/11 - 2022/03/15

danbi5228 commented 2 years ago

~~3/16 pm9:00~~ 3/17 pm10:00

givitallugot commented 2 years ago

연습문제 1번

SVR (오차 허용 범위인 마진 내에 최대한 많은 관측치가 포함되도록)
- C: 마진에서 벗어나는 데이터에 적용하는 Cost
- Kernel: linear 형태로 예측하거나, rbf 사용 시 linear보다 복잡한 형태로 예측
RMSE: 70286.6183 (>> RF RMSE: 18650.6987) - RF가 더 좋은 모델
최적의 파라미터: {'C': 30000.0, 'kernel': 'linear'}

연습문제 2번

SVR, GridSearchCV -> RandomizedSearchCV
RMSE: 54751.6901 (이전에 비해 좋음)
최적의 파라미터: {'C': 157055.10989448498, 'gamma': 0.26497040005002437, 'kernel': 'rbf'}
보통 랜덤서치가 같은 시간안에 그리드서치보다 더 좋은 하이퍼파라미터를 찾음

연습문제 3번

가장 중요한 특성을 선택하는 변환기 추가


from sklearn.base import BaseEstimator, TransformerMixin

def indices_of_top_k(arr, k): return np.sort(np.argpartition(np.array(arr), -k)[-k:])

class TopFeatureSelector(BaseEstimator, TransformerMixin): def init(self, feature_importances, k): self.feature_importances = feature_importances self.k = k def fit(self, X, y=None): self.featureindices = indices_of_top_k(self.feature_importances, self.k) return self def transform(self, X): return X[:, self.featureindices]


### 연습문제 4번
- 전체 데이터 준비 과정과 예측을 하나의 파이프라인으로
```python
prepare_select_and_predict_pipeline = Pipeline([
    ('preparation', full_pipeline),
    ('feature_selection', TopFeatureSelector(feature_importances, k)),
    ('svm_reg', SVR(**rnd_search.best_params_))
])

prepare_select_and_predict_pipeline.fit(housing, housing_labels)

njs03332 commented 2 years ago

2.5 머신러닝 알고리즘을 위한 데이터 준비

사이킷런의 설계 철학

일관성: 모든 객체가 일관되고 단순한 인터페이스를 공유함
- 추정기 (estimator) : 데이터셋을 기반으로 일련의 모델 파라미터들을 추정하는 객체 (예: imputer 객체)
- 추정 자체는 fit() 메서드에 의해 수행됨. 하나의 매개변수로 하나의 데이터셋만 전달함 (단, 지도학습 알고리즘에서는 매개변수가 두 개. 두 번째 데이터셋은 레이블을 담고 있음)
- 추정 과정에서 필요한 다른 매개변수들은 모두 하이퍼파라미터로 간주되며 인스턴스 변수로 저장됨 (예: imputer 객체의 strategy 매개변수. imputer = SimpeImputer(strategy="median")
- 변환기 (transformer) : 데이터셋을 변환하는 추정기
- 변환은 transform() 메서드가 수행. 데이터셋을 매개변수로 전달받으며, 변환된 데이터셋을 반환함.
- 변환은 일반적으로 학습된 모델 파라미터에 의해 결정됨
- 모든 변환기는 fit()과 transform()을 연달아 호출하는 것과 동일한 fit_transform() 메서드도 가지고 있음
- 예측기 (predictor) : 주어진 데이터셋에 대해 예측을 만들 수 있는 추정기
- predict() 메서드가 새로운 데이터셋을 받아 이에 상응하는 예측값을 반환함
- 테스트 세트를 사용해 예측의 품질을 측정하는 score() 메서드를 가짐
검사 가능: 모든 추정기의 하이퍼파라미터는 public 인스턴스 변수로 직접 접근할 수 있고 (예: imputer.strategy), 학습된 모델 파라미터도 public 인스턴스 변수로 제공됨 (예: imputer.statistics_)
클래스 남용 방지: 데이터셋을 반환할 대 넘파이 배열이나 사이파이 sparse matrix로 표현함. 하이퍼파라미터는 보통의 파이썬 문자열이나 숫자임.
조합성: 기존의 구성요소를 최대한 재사용함. (예: Pipeline 추정기)
합리적인 기본값: 일단 돌아가는 기본 시스템을 빠르게 만들 수 있도록 대부분의 매개변수에 합리적인 기본값이 지정돼있음

2.5.3 나만의 변환기

특별한 정제 작업이나 특정한 특성들을 조합하는 등의 작업이 필요한 경우 -> 자신만의 변환기를 만들어야 함
사이킷런은 덕 타이핑 (duck typing)을 지원하므로 fit(), transform(), fit_transform() 메서드를 구현한 파이썬 클래스를 만들면 됨
- duck typing: 상속이나 인터페이스 구현이 아니라 객체의 속성이나 메서드가 객체의 유형을 결정하는 방식
TransformerMixin을 상속하면 fit_transform() 메서드가 자동으로 생성됨
- 파이썬에서 이름에 Mixin이 있으면 객체의 기능을 확장하려는 목적으로 만들어진 클래스를 나타냄
BaseEstimator를 상속하면 하이퍼파라미터 튜닝에 필요한 두 메서드 get_params(), set_params()를 얻게 됨
예시 코드: BaseEstimator, TransformerMixin을 상속하는 새로운 클래스 CombinedAttributesAdder 정의
- 변환기가 하나의 하이퍼파라미터 add_bedrooms_per_room을 가짐. (기본값 지정)
- 일반적으로 100% 확신이 없는 모든 데이터 준비 단계에 대해 하이퍼파라미터를 추가할 수 있음. 이렇게 자동화할수록 더 많은 조합을 자동으로 시도해볼 수 있어 최상의 조합을 찾을 가능성이 높아짐

2.5.4 특성 스케일링 (feature scaling)

몇 가지 예외를 제외하면 일반적으로 머신러닝 알고리즘은 입력 숫자 특성들의 스케일이 많이 다르면 잘 작동하지 않음 -> 특성 스케일링이 필요
타깃값에 대한 스케일링은 일반적으로 불필요
min-max 스케일링 (정규화)
- 값이 0~1 범위에 들도록 이동 (데이터에서 최솟값을 뺀 후 최댓값과 최솟값의 차이로 나누기)
- 사이킷런 MinMaxScaler 변환기. feature_range 매개변수로 범위 변경 가능
표준화
- 평균을 뺀 후 표준편차로 나누어 결과 분포의 분산이 1이 되도록 함
- 범위의 상한과 하한이 없어 어떤 알고리즘에서는 문제가 될 수 있음
- min-max 스케일러보다 이상치에 영향을 덜 받음
- 사이킷런 StandardScaler
주의) 모든 변환기에서 스케일링은 훈련 데이터에 대해서만 fit() 메서드를 적용해야 함. 이후 훈련 세트와 테스트 세트에 대해 transform() 메서드를 적용.

2.5.5 변환 파이프라인

Pipeline 클래스를 이용하면 연속된 변환을 순서대로 처리할 수 있음
예제 코드: 숫자형 특성을 처리하는 간단한 파이프라인 num_pipeline 생성
- Pipeline은 연속된 단계를 나타내는 이름/추정기 상의 목록을 입력으로 받음
- 마지막 단계에는 변환기와 추정기 모두 사용 가능
- 그 외에는 모두 변환기여야 함
- 지정해둔 이름은 이후 하이퍼파라미터 튜닝할 때 사용됨
파이프라인의 fit() 메서드를 호출하면 모든 변환기의 fit_transform() 메서드가 순서대로 호출되면서 각 단계의 출력을 다음 단계의 입력으로 전달함. 마지막 단계에서는 fit() 메서드만 호출됨
파이프라인 객체는 마지막 추정기가 갖고 있는 메서드와 동일한 메서드를 제공함 (예: 마지막 추정기가 변환기 StandardScaler인 경우 파이프라인이 transform() 메서드를 갖고 있음)
ColumnTransformer를 이용하면 하나의 변환기로 각 열마다 적절한 변환을 적용하여 모든 열을 처리할 수 있음 (사이킷런 0.20 버전에서 추가됨)
예제 코드: 수치형 열과 범주형 열을 각각 num_pipeline, OneHotEncoder()로 처리하는 파이프라인 생성
- 수치형 열 이름의 리스트와 범주형 열 이름의 리스트를 만들어 ColumnTransformer 클래스 생성시 (이름, 변환기, 변환기가 적용될 열 이름)의 리스트를 파라미터로 전달
결과 데이터에 희소 행렬과 밀집 행렬이 섞여있을 때 ColumnTransformer는 최종 행렬의 밀집 정도를 추정하여 임곗값보다 낮으면 희소 행렬을 반환함
삭제하고 싶은 열이 있다면 "drop" 문자열로 지정 / 변환을 적용하지 않을 열이 있다면 "passthrough"로 지정
사이킷런 0.19 이전 버전을 사용하는 경우
- sklearn-pandas 와 같은 서드파티 라이브러리 사용
- ColumnTransformer와 동일한 기능을 가진 사용자 정의 변환기 만들기
- 여러 변환기를 적용하고 결과를 합쳐주는 FeatureUnion 클래스 사용

2.7 모델 세부 튜닝

2.7.1 그리드 탐색

GridSearchCV: 가능한 모든 하이퍼파라미터 조합에 대해 교차 검증을 사용해 평가함
예제 코드: param_grid에 시도해볼 파라미터 조합을 설정해줌
best_params_로 최적의 조합 확인
best_estimator_로 최적의 추정기 얻을 수 있음
cv_results_로 평가 점수 확인
GridSearchCV가 refit=True로 초기화되었다면, 교차 검증으로 최적의 추정기를 찾은 다음 전체 훈련 세트로 다시 훈련 시킴. (데이터가 많을수록 성능이 향상되기 때문에 좋은 방법)
그리드 탐색이 확실하지 않은 특성을 추가할지 말지 자동으로 정할 수 있음. 이상치나 값이 빈 특성을 다루거나, 특성 선택 등을 자동으로 처리하는 데 그리드 탐색을 사용할 수 있음

2.7.2 랜덤 탐색

하이퍼파라미터 탐색 공간이 커지면 그리드 탐색 대신 RandomizedSearchCV를 사용하는 것이 좋음
- GridSearchCV와 거의 같은 방식으로 사용
- 각 반복마다 하이퍼파라미터에 임의의 수를 대입하여 지정한 횟수만큼 평가함
장점
- 랜덤 탐색을 1000회 반복하도록 실행하면 하이퍼파라미터마다 각기 다른 1000개의 값을 탐색함
- 단순히 반복 횟수를 조절하는 것만으로 하이퍼파라미터 탐색에 투입할 컴퓨팅 자원을 제어할 수 있음
특히 규제처럼 설정값이 연속형인 경우 랜덤 탐색이 권장됨.
사이킷런 0.24 버전에서 파라미터 탐색 범위를 좁혀가면서 컴퓨팅 자원을 늘려가는 HalvingGridSearchCV와 HalvingRandomSearchCV가 추가됨

2.7.3 앙상블 방법

최상의 모델을 연결하여 모델을 세밀하게 튜닝할 수 있음
모델의 그룹 (앙상블)이 최상의 단일 모델보다 더 나은 성능을 발휘할 때가 많음
특히 개개의 모델이 각기 다른 형태의 오차를 만들 때

2.7.4 최상의 모델과 오차 분석

최상의 모델을 분석하면 문제에 대해 좋은 통찰을 얻을 수 있음
예: RandomForestRegressor의 feature importance 확인하여 덜 중요한 특성들을 제외할 수 있음
시스템이 특정한 오차를 만들었다면 왜 그런 문제가 생겼는지 이해, 문제 해결 방법을 찾아야
- 추가 특성 포함
- 불필요한 특성 제거
- 이상치 제외 등

2.7.5 테스트 세트로 시스템 평가하기

테스트 세트에서 변수와 레이블을 얻어 full_pipeline을 사용해 데이터 변환하여 최종 모델 평가하기 (테스트 세트에서 훈련하면 안되므로 fit_transform()이 아니라 transform()을 호출해야!)
오차의 추정값이 얼마나 정확한지 알기 위해 scipy.stats.t.interval()를 사용해 일반화 오차의 95% 신뢰구간을 계산할 수 있음
하이퍼파라미터 튜닝을 많이 한 경우 교차 검증을 사용해 측정한 것보다 조금 성능이 낮은 것이 일반적
- 테스트 세트에서 성능 수치를 좋게 하려고 하이퍼파라미터를 튜닝하려 시도해서는 안됨 (이렇게 해서 성능이 향상되어도 새로운 데이터에는 일반화되지 않을 것이기 때문)

danbi5228 commented 2 years ago

2.8 론칭, 모니터링, 시스템 유지 보수

모델을 상용 환경에 배포하기
- 방법1. predict() 메서드를 호출해 가격 예측하도록 하기
- 방법2. REST API로 한번 더 감싸기
- 장점 웹 서비스로 오는 요청을 로드밸런싱 할 수 있으므로 규모확장이 쉬움 웹 어플리케이션을 파이썬이 아닌 다른 언어로도 작성할 수 있음
- 방법3. 클라우드에 배포 (ex. 구글 클라우드 AI 플랫폼)
배포 후 일정 간격으로 시스템 성능을 체크하고 성능이 떨어졌을 때 알람을 통지할 수 있는 모니터링 코드 작성 필요
모델의 실전 성능 모니터링 ex) 하위 시스템의 지표로 모델 성능 추정 (평가자 사용하거나 사용하지 않거나)
데이터가 계속 변화하면 데이터셋을 업데이트하고 모델을 정기적으로 다시 훈련해야 함. 가능한 많은 것을 자동화해야 함
- 자동화 할 수 있는 작업들
- 정기적으로 새로운 데이터를 수집하고 레이블 달기
- 모델을 훈련하고 하이퍼파라미터를 자동으로 세부 튜닝하는 스크립트 작성
- 업데이트된 테스트 세트에서 새로운 모델과 이전 모델을 평가하는 스크립트를 하나 더 작성 성능이 감소하지 않으면 새로운 모델을 제품에 배포
만든 모든 모델을 백업할 것. 문제가 생겼을 때 빠르게 롤백 하기 위한 절차와 도구 준비

njs03332 / ml_study