issues
search
CausalInferenceLab
/
OCE-Materials
<온라인 통제 실험 연구자로 거듭나기> 프로젝트 스터디 자료 모음
https://www.notion.so/chanrankim/6f637b9572f14c61b6ae84c2739ffc41
MIT License
52
stars
2
forks
source link
상반기 스터디 2회차 - 온라인 통제 실험 소개 및 분석 기초
#11
Closed
be-favorite
closed
7 months ago
be-favorite
commented
7 months ago
@ddongmiin 님 요약 감사합니다.
OCE
랜덤하게 5:5 할당, 어떻게? 가설에 기반해서 랜덤하게
무엇을 변경? = feature(UI, 백엔드알고리즘 등등..)
중요한 것?
고객이 경험할 옵션을 완전히 통제 가능하다는 점
“통제한 부분”에 의한 변화만 발라내서 살펴보기
변화의 방향 = 고객이 원하는 방향
실험을 할 때 겪기 쉬운 오류
가설을 안세우고 하는 경우가 많음. 뭐가 문제?
풀고자 하는 비즈니스 문제가 명확해지지 않음
→ 지표 설계를 하는 과정에서도 깊은 고민을 하지 않게 됨(Primary Metric등..)
A/B 실험 분석 라이프 사이클
experimentation = 실험과 관련된 활동들을 망라한 것 VS experiment = 실험
실험전
보통은 사용자 단위의 지표, 가설 등을 설정후 바이어스 해결
실험중
가드레일 - 해가 되면 안돼!
진단지표 - 대조군과 실험군이 다른 경험을 하고 있나?를 구분할 수 있는 지표
실험후
신뢰성 검토 - 퀄리티/가드레일/진단지표 를 통해
지표예시(연승님 질문)
퀄리티 - SRM (sample ratio mismatch)
실험 계획 했을 때의 variant별 비율과 실제 실험후 variant 비율이 다른 경우 → quality이슈 (인프라 문제인지..등 검토)
가드레일지표 - 매출만 올라가고 리텐션은 떨어지는 경우를 예로 들 수 있음
진단지표 - 이건 도메인 별로 편차가 매우 클 수 있음
통계분석 - primary metric에 대해 분석
상세 고객 분석 - a/b테스트로 잡아내지 못하는 부분들
미세한 부분들을 컨트롤하기 어려운 경우 (A/B 테스트 만으로)
가설 & 성공 지표 설정
optimizely 사이트 참조
가설, 비즈니스 문제, 문제 해결을 통해 달성하고자 하는 목표
예시 - 쿠폰 코드 → 구매 의욕 저해?
비용 절감
모든 쿠폰 시스템을 다 구성하는게 아니라, UI만 만들어보기 (약간 낚시용? - 실제로 쿠폰 발행은 하지 않음)
good point
가설이 명확함 - 명확하다는 기준?
모집단, 어느 단계에서 개입을 해야 할지
지표이야기
비즈니스 지표
매출의 문제점
민감도가 낮고 분산이 너무 큼
통계 분석 어려움
“통제”하기가 어려움 → 어떤 액션을 해야할지 알기 어려움
명확히 정의하기가 쉽지 않음 - 전사적인 합의
실험 지표
비즈니스 지표와의 가장 큰 차이점!
단기적인 지표 → 민감하다 (=액션에 민감하게 반응한다.)
아마존 이메일 시스템
다양한 관점에서 동시에 최적화(EX_페널티 텀)
사용자 할당 방식
random salt → user_id에 Random한 string키를 부여
랜덤하면 → 버킷마다 사용자들이 바뀔테니까 = 이것 자체를 랜더마이제이션이라고 함
역추적 가능(seed를 통해)
지표 단위
분석 단위와 사용자 단위가 다른 경우
bias 가 생기는 이유 - iid 어떤 분포를 따르지 않게 됨
페이지 같은 경우? 이전 페이지에 종속이 될 수도 있음
노출이란 개념은 통제할 수 있는 개념은 아님, 반면 사용자 단위는 통제한 개념 → 결론적으로 분포가 달라지게 됨
왜, 누적 지표로?
“변화”를 관찰해야 하기 때문에, 기간 내 데이터가 필요
특정 액션(=변화) 이후
핵심지표 set
SRM - 깨지면 실험 결과를 버리기도
OEC - Key Metric Set중 하나를 이용할 수 있음, 무조건 이걸 설정하고 해라 이건 아님
이런 set을 주는 이유? 검정력, A/A테스트 등에도 이용하기 위해
local feature, 진단지표
태모님 예시 사례
문제 해결 대상 - 홈 상품 랭킹 알고리즘(개인화)
집계 대상 - 이 영역에서 집계 된 매출
여기서 로컬 피쳐?
이 각 영역에서 집계 된 매출
진단 지표
실험군에만 나가야 하는 영역이 대조군에도 노출 된 경우
실험군에 대조군 영역이 나가는 경우
커뮤니케이션 에러를 탐지할 수도.. → 조기 종료
통계 분석 관련
필요성을 모르시는 분들께 어떻게 설명을 드려야 할지
표본들의 대표성이 확보되어 있는지?
평균만 봐도 되는지?
검정 결과 신뢰성 (검정력 관련)
검정력
실험군/대조군 간의 분포가 겹칠수록 → 더 많은 sample이 필요함
왜? 우연하게 차이가 큰 샘플만 뽑힌거라면? = 이게 우연이 아니라는 것을 설명해주는 개념이 p-value
sample을 더 많이 뽑으면 → 분포를 더 잘 묘사함 → 우연한 상황이 발생할 가능성이 떨어짐
검정력 분석이란?
원하는 수준의 검정력을 얻으려면 얼마나 많은 샘플이 필요할지를 알려줌
효과크기? - 델타를 표준화한 방식
검정력 공식
델타 - MDE(minimum detectable effect)
도메인, 경험 등을 통해 결정(통제)
분산 - 과거 데이터를 통해 계산 가능
지표 마다 계산 공식에 차이가 있을 수 있음
전환율은 모비율만 알면 되지만… 주문 건수 등은 전체 데이터가 있어야함
계산 프로그램만으로는 100% 해결하기 어려움
표본수 계산하는게 마냥 쉽지는 않음… 그 이유
사전 정보가 있긴 해야함.
우리 서비스에 얼마나 많음 사람이 방문할지?
만약 우리 서비스가 프로모션을 한 경우(자연스레 사용자가 많아지게 됨)
allocation이 있는 경우?
트래픽의 몇%를 실험에 할당할 것인지
반면, relative의 경우 - 할당 비율은 고정, 할당 비율에 따라 실험 기간이 “상대적”으로 설정됨
T 검정치의 의의
위치모수(평균)와 척도모수(분산)을 모두 고려한 통계치(보통은 평균만 고려하는 경우가 많은데..)
실험플랫폼에서 신뢰구간에 대한 표현이 중요한 이유?
어떻게 걸쳐있느냐에 따라서 의사결정의 방향이 달라짐
한번 더 해볼지? 여기서 종료할지? 이정도로 충분할지? 의미가 없다는 것일지?
Pre-experiment bias
잔류효과
마소 논문, 실험의 좋은 경험이 2~3주 정도 유지되더라! 마소 논문
Ordering Effect
Random imbalance
교정 방법
A/A 테스트 - 실험군과 대조군을 여러번 섞어서 최대한 bias가 없는 실험군/대조군 set 찾기
CUPER = 공분산분석(분산분석에 공변량이 추가)
나~중에 논문스터디 할 때 자세히 다룰 듯
태모님 실험 5계명 중
초기 제품(MVP)개발 소홀히 해서는 안된다
에어비엔비 CEO → A/B 테스트 안한다 했더니 PM/PO들이 환호했다 → 왜? A/B 테스트에 너무 의존 = 결국 의사결정의 모든 측면을 고객에게 맡겨버리는게 될 수 있음
@ddongmiin 님 요약 감사합니다.