sejongresearch / RecycleClassification

리사이클 팀, 재활 용품 분류기 (2019)
1 stars 2 forks source link

Overfitting 방지를 위한 cross validation(교차검증)과 파라미터 튜닝 #9

Open 17011775 opened 5 years ago

17011775 commented 5 years ago

Cross validation : training data 와 validation data 를 분할하여 특정 데이터에 의존성이 낮은 , 즉 일반화 성능이 좋은 모델 학습시키기.

가장 널리 사용되는 교차 검증 방법은 k-겹 교차검증(k-fold cross-validation)으로 k는 특정 숫자인데 보통 5또는 10을 사용. 분류기의 일반화 성능을 측정할 때 k-겹 교차 검증보다 더 안정적인 계층별 k-겹 교차 검증을 사용하는 것이 좋다. 평가 방법을 결정해야함. 홀드아웃 검증 or K-겹 교차 검증? 검증에 사용할 데이터의 양은 ?

Cross validation 예시 : 데이터를 10개 그룹으로 나누어 그중 9 개를 training data 로 삼아 모델학습, 남은 하나를 validation data로 사용하여 성능 측정. 이 과정을 validation data 그룹을 바꿔가며 10번 반복하면서 평균 성능이 높은 hyper parameter(모델 성능을 좌우하는 파라미터) 선택

대표적인 하이퍼 파라미터 : learning_rate, hidden layer 개수, 배치 크기, 매개변수(W,b) 갱신 시의 학습률과 가충치 감소 등 성공을 어떻게 측정할지 선택. 검증 데이터에서 모니터링할 지표는 무엇인가?

하이퍼 파라미터 성능 평가 시 test data 사용X. validation data 사용해야함.

training data : W, b 매개변수 학습 validation data : 하이퍼 파라미터 성능 평가 test data : 신경망 범용 성능 평가 (이상적으로는 1번)

17011775 commented 5 years ago

홀드아웃 검증 , K-겹 교차 검증: https://blog.naver.com/sanghan1990/221209478796

17011775 commented 5 years ago

실무에서는 고성능의 모델을 학습할 만큼 데이터를 확보하지 못하는 경우가 많음 학습 데이터 수를 왜곡, 변형 시켜서 늘림(Image Augmentation) 학습 할 때 이용 트레이닝 할 때 만 어그멘테이션 해야 함.

https://blog.naver.com/4u_olion/221437862590