CausalInferenceLab / OCE-Materials

<온라인 통제 실험 연구자로 거듭나기> 프로젝트 스터디 자료 모음
https://www.notion.so/chanrankim/6f637b9572f14c61b6ae84c2739ffc41
MIT License
52 stars 2 forks source link

OEC를 실무에서 활용하는 사례가 많은가? #8

Closed yooseung96 closed 2 months ago

yooseung96 commented 5 months ago

배경

논의 사항

jsshin2022 commented 5 months ago

좋은 사례 공유 및 스터디 자료에 힘써주셔서 감사합니다! @yooseung96 , @be-favorite

저는 나름 있어보이려고 OEC라고 부르지만, 함께 협업하는 개발자나 기확자분들은 그냥 뭉뚱그려 OEC도 KPI라고 부르시는 것 같아요.

돌아와서, 논의사항에 올려주신 부분 중 궁금한 점 2가지가 있어 공유드립니다.

be-favorite commented 2 months ago

Q1) "OEC를 잘 활용하면 1종 오류가 높아지는 걸 방지할 수 있다" 이 부분에서 OEC를 잘 설계하면 반복해서 실험하지 않아도 되니 1종 오류가 높아지지 않을 것이다'라고 이해하면 될까요?

실험을 반복하는 것 또한 1종 오류를 낮추는 아주 훌륭한 방법입니다. OEC(overall evaluation criterion)의 활용이 통해 1종 오류를 낮출 수 있다는 것은 다른 관점입니다. OEC는 말 그대로 여러 지표를 결합한 하나의 종합 평가 지표라고 할 수 있습니다. OEC를 설정함으로써 우리는 여러 지표 각각에 대해 가설 검정을 하는 것이 아닌 OEC 하나에 대해서만 통계적 가설 검정을 수행해주면 되는 것이고, 이에 따라 자연스럽게 1종 오류는 낮아집니다. 여러 지표에 대해 동시에 여러 가설을 검정해야하는 상황에서 하나의 지표에 대해 하나의 가설만 검정을 해주면 되는 상황이니까요.

Q2) 만약, 실험을 부득이하게 여러번 하게 된 경우, 결과에 대한 통계적인 신뢰성 확보를 위해 보정 방법(Bonferroni correction)을 실무에 적용하시는지 궁금합니다!

본페로니 보정은 단순히 p-value에 가설의 개수(i.e. 지표의 개수)를 곱해서 adjusted p-value를 계산하기 때문에, 지나치게 보수적인 검정을 하게 됩니다(i.e. 귀무가설을 기각시키기 힘든 매우 보수적 기준을 가지게됨). 이에따라 실무에서는 FWER(Family-wise error rates) 본페로니 교정이 아닌 FDR(False discovery rate)에 기반한 Benjamini-Hochberg procedure를 통해 1종 오류를 통제해줍니다.

BH procedure를 통해 p-value를 조정하려면 지표의 중요도를 부여해주어야 하는데, 해외 실험 플랫폼 솔루션들에서 제공하는 실험 분석 결과에서 실험 지표들이 Primary, Secondary로 분류되어 있는 것 또한 이러한 이유에서 입니다. 중요도가 높을수록 보다 진보적인 기준으로 통계적 가설검정을 하게 된다고 이해하시면 됩니다. 반대로, 중요도가 떨어지는 즉 해당 실험을 통해 Primary metric 만큼 직접적인 변화를 이뤄내기 어렵다고 판단되는 지표들은 더욱 보수적인 검정을 하게되는 거죠.