Conceitos de amostragem mais avançados estão relacionados a Amostragem Probabilistica (que não é o caso), acho que usar a variância da coluna da classe pra medir a semelhança entre a partição e o conjunto total.
Usar extração de features (PCA por exemplo) para verificar as features mais relevantes do dataset e utilizar apenas as preferências nos quais os parâmetros definidos estejam nas features relevantes.
Usar métricas de semelhanças entre matrizes para verificar as amostras mais parecidas com a população (L1-Norm, L2-Norm, etc)
Ideias