chatterboy / fracture

1 stars 0 forks source link

데이터 크기에 따른 파티셔닝 문제 #9

Closed chatterboy closed 6 years ago

chatterboy commented 6 years ago

데이터가 많은 경우는 셔플링을 하여 랜덤하게 추출하는 방법이 문제가 없다. 샘플링된 데이터 분포가 모분포를 따르기에 충분하기 때문이다. 따라서, 해당 분포에서 학습을 하여도 일반화 성능을 보장한다고 생각할 수 있다. 하지만, 데이터가 매우 적은 경우를 생각해보자. 모분포 특성을 만들어낼 수 있는 충분한 데이터가 없기 때문에 과적합 문제가 발생한다. 따라서, 데이터가 매우 적은 경우는 일반적인 분포 특성을 고려하면서 샘플링될 수 있도록 개입이 필요하다.