Cross validation : training data 와 validation data 를 분할하여 특정 데이터에 의존성이 낮은 ,
즉 일반화 성능이 좋은 모델 학습시키기.
가장 널리 사용되는 교차 검증 방법은 k-겹 교차검증(k-fold cross-validation)으로 k는 특정 숫자인데 보통 5또는 10을 사용. 분류기의 일반화 성능을 측정할 때 k-겹 교차 검증보다 더 안정적인 계층별 k-겹 교차 검증을 사용하는 것이 좋다.
평가 방법을 결정해야함. 홀드아웃 검증 or K-겹 교차 검증? 검증에 사용할 데이터의 양은 ?
Cross validation 예시 : 데이터를 10개 그룹으로 나누어 그중 9 개를 training data 로 삼아 모델학습, 남은 하나를 validation data로 사용하여 성능 측정. 이 과정을 validation data 그룹을 바꿔가며 10번 반복하면서 평균 성능이 높은 hyper parameter(모델 성능을 좌우하는 파라미터) 선택
대표적인 하이퍼 파라미터 : learning_rate, hidden layer 개수, 배치 크기, 매개변수(W,b) 갱신 시의 학습률과 가충치 감소 등
성공을 어떻게 측정할지 선택. 검증 데이터에서 모니터링할 지표는 무엇인가?
하이퍼 파라미터 성능 평가 시 test data 사용X. validation data 사용해야함.
training data : W, b 매개변수 학습
validation data : 하이퍼 파라미터 성능 평가
test data : 신경망 범용 성능 평가 (이상적으로는 1번)
Cross validation : training data 와 validation data 를 분할하여 특정 데이터에 의존성이 낮은 , 즉 일반화 성능이 좋은 모델 학습시키기.
가장 널리 사용되는 교차 검증 방법은 k-겹 교차검증(k-fold cross-validation)으로 k는 특정 숫자인데 보통 5또는 10을 사용. 분류기의 일반화 성능을 측정할 때 k-겹 교차 검증보다 더 안정적인 계층별 k-겹 교차 검증을 사용하는 것이 좋다. 평가 방법을 결정해야함. 홀드아웃 검증 or K-겹 교차 검증? 검증에 사용할 데이터의 양은 ?
Cross validation 예시 : 데이터를 10개 그룹으로 나누어 그중 9 개를 training data 로 삼아 모델학습, 남은 하나를 validation data로 사용하여 성능 측정. 이 과정을 validation data 그룹을 바꿔가며 10번 반복하면서 평균 성능이 높은 hyper parameter(모델 성능을 좌우하는 파라미터) 선택
대표적인 하이퍼 파라미터 : learning_rate, hidden layer 개수, 배치 크기, 매개변수(W,b) 갱신 시의 학습률과 가충치 감소 등 성공을 어떻게 측정할지 선택. 검증 데이터에서 모니터링할 지표는 무엇인가?
하이퍼 파라미터 성능 평가 시 test data 사용X. validation data 사용해야함.
training data : W, b 매개변수 학습 validation data : 하이퍼 파라미터 성능 평가 test data : 신경망 범용 성능 평가 (이상적으로는 1번)