데이터 크기에 따른 파티셔닝 문제

데이터가 많은 경우는 셔플링을 하여 랜덤하게 추출하는 방법이 문제가 없다. 샘플링된 데이터 분포가 모분포를 따르기에 충분하기 때문이다. 따라서, 해당 분포에서 학습을 하여도 일반화 성능을 보장한다고 생각할 수 있다. 하지만, 데이터가 매우 적은 경우를 생각해보자. 모분포 특성을 만들어낼 수 있는 충분한 데이터가 없기 때문에 과적합 문제가 발생한다. 따라서, 데이터가 매우 적은 경우는 일반적인 분포 특성을 고려하면서 샘플링될 수 있도록 개입이 필요하다.

chatterboy / fracture

데이터 크기에 따른 파티셔닝 문제 #9