CausalInferenceLab / OCE-Materials

<온라인 통제 실험 연구자로 거듭나기> 프로젝트 스터디 자료 모음
https://www.notion.so/chanrankim/6f637b9572f14c61b6ae84c2739ffc41
MIT License
52 stars 2 forks source link

적정 표본 크기(Sample Size)에 대한 논의 - 최대 샘플사이즈에 대하여 #1

Closed knit-factory closed 7 months ago

knit-factory commented 7 months ago

배경 :

많은 조직들에서 A/B Test를 수행하고 있습니다. 그러나 이러한 실험설계 과정에서 통계적 가정을 지키지 않고 단순히 실험군과 대조군을 나누어서 두 집단의 지표를 비교하는 식의 실험이 운영되는 것을 종종 목격해왔습니다.

예를들어 굉장히 트래픽이 큰 서비스를 담당하고 있을 때 실험군/대조군에 몇천만명의 유저를 넣고 실험을 하는 상황을 보았습니다. 실험설계자는 통계를 잘 모르는 상황이었으며, 의도는 "샘플사이즈가 크면 모집단을 충분히 반영하니까 지표끼리 비교해도 상관없지 않나요?" 라는 질문을 하셨습니다. 추가적으로 "대수의 법칙, 중심극한정리 뭐 그런 것 아닌가요..?" 같은 이야기도 해주셨습니다.

문제 :

당시의 직관적으로 생각했을 때에는 샘플사이즈가 너무 크면 사실상 P-value는 매우 작아저서 어떤 실험이든 '기각할 충분한 근거가 있다.' 라는 결론만 나오게 되어 문제가 있지 않나 라는 생각이 들었으나, 질문자의 의도대로 모집단의 특성을 잘 반영하면 상관이 없는 것이 아닌가라는 생각도 들어 이슈에 등록합니다.

실험에서 최소 샘플 사이즈는 통계적 검정력(power), 유의 수준(significance level), 효과 크기(effect size) 등을 고려하여 계산하는 것으로 알고있습니다. 그렇다면 최대 샘플 사이즈는 어떻게 고려해야 할까요?

사전조사 :

해당 문제에 대해서 사전에 조사한 바는 아래와 같습니다.

be-favorite commented 7 months ago

실험설계시, 검정력 분석을 통해 산업 표준의 검정력 80%, 유의수준 5% 하에 각 변형군(대조군, 실험군)에 필요한 최소 표본 크기를 구할 수 있게되는데요. 여기서 최소 표본 크기를 구하기 위해 실험의 측정값(즉, 온라인 통제 실험의 경우 핵심 실험지표)에 관한 표준편차와 감지하고자하는 최소 효과가 필요로 됩니다.

예를 들어, 하나의 가설로 특별 식단이 사람의 몸무게를 평균적으로 3kg 정도 개선할 수 있다고 할 때, 감지하고자 하는 최소 효과는 3kg가 될 것이고, 여기서 몸무게의 표준편차까지 들고있는 상태라면 검정력 분석을 통해 검정력 80%, 유의수준 5%하에 필요한 최소 표본 크기를 계산할 수 있게되는 것이죠.

위 글에서 말씀주신 최대 샘플 사이즈의 경우는 지나치게 많은 샘플 사이즈를 실험에 투여한 경우를 말하는데요. 우선 지나치게 많은 샘플 사이즈를 집어 넣는 것 자체는 실험의 신뢰도 측면에서 전혀 문제가 없습니다(즉, 산업 표준의 검정력 80% 보다 더 높은 검정력을 확보하는 경우). 다만, 글에서 말씀주신대로 큰 비효율을 초래합니다.

오프라인 실험의 경우 불필요하게 더 많은 표본을 확보했기에 더 많은 실험 비용을 지출하게 될 것이고, 온라인 실험의 경우 표본 확보 비용은 적을터이나 알맞는 양의 표본을 사용했다면 트래픽을 더 줄이던가 실험 기간을 더 줄여 보다 더 많은 실험을 통해 더 많은 가설을 테스트할 수 있었을 텐데 이를 놓치게 된 것이죠.

불필요하게 많은 표본을 투입한 상황과 관련되는 또 하나의 개념이 있습니다. 실무적 유의도라는 개념인데요. 예를 들어, 불필요하게 많은 표본을 투입하여 CTR 기준 0.1%의 개선까지 감지할 수 있는 실험을 수행했다고 해봅시다. 이때 실험을 통해 관측을 해 본 결과 실제로 0.1%의 CTR이 개선되는 결과가 나왔다고 해보죠. 우리는 앞서 0.1%의 개선까지 감지할 수 있는 충분한 검정력을 확보한 상황이므로, 이 결과가 통계적으로 유의하고 신뢰할만한 결과라고 이야기할 수 있을겁니다. 다만, 이 0.1%의 개선이 때에 따라서 실무적으로는 유의하지 않은 결과일 수 있습니다. 유지보수 비용, 구현 비용, 0.1% 개선에 따른 얻어낼 수 있는 추가적 매출 등을 고려해봤을때 현재 우리 프로덕트에 0.1% 개선은 비즈니스에서 그다지 의미가 없을 수 있다는 거죠.

따라서, 실험 사전에 검정력 분석을 바탕으로 주어진 최소 표본 크기 이상을 실험에서 확보하는 것은 굉장히 중요하지만, 반대로 지나치게 많은 표본을 투입하는 것 또한 지양해야합니다. 적절한 표본을 투입함으로써 우리는 실험 비용을 최대한 줄임과 동시에 더 많은 실험을 동시에 진행할 수 있게 되니까요.