nDCG 같은 metrics를 이용해서 l2r 모델을 평가하지만, 모델의 성능은 예측 성능 뿐만 아니라 input feature에도 영향을 받음
IR 분야에서 대부분은 model로 생성된 output을 기반으로 평가함. 이는 full insight를 얻을 수 없을 뿐만 아니라, 모델의 복잡도가 올라가도, input의 quality가 계속 좋지 않다면 성능이 좋아지지 않을 것.
본 페이퍼에서는 feature quality를 트래킹할 수 있는 FeCo라는 metric을 제시
Design
Data sampling
하루에 몇 가지 시간대를 선택하고, 각 시간대에서 고정된 instance set을 샘플링함. 본 논문에서는 time window를 10분으로 설정했고, 8개의 균일하게 분포된 window와, 각 window에서 200k개의 샘플이 포함된 경우가 실제 트래픽 분포와 매우 유사하다고 함.
FeCo Computation
$FeCo_f$가 feature $f$의 FeCo score를 의미
$S$는 샘플된 events 개수
$f(event)$를 threshold라고 해석하면 될 듯 -> 이에 따라 coverage 달라짐
Experiments
table 1은 표 약간 이상한 듯;
FeCo가 감소하면, 모델에 기여도가 낮아짐. 따라서, FeCo가 높은 feature가 ranking 성능을 높일 수 있다고 추론할 수 있음
더 중요한 feature의 FeCo 하락이 덜 중요한 feature의 FeCo 하락에 비해 nDCG에 더 큰 영향을 미친다는 것을 발견 (직접적인 관계가 있는지는 더 분석해 봐야한다고 함.)
paper
Design
Data sampling 하루에 몇 가지 시간대를 선택하고, 각 시간대에서 고정된 instance set을 샘플링함. 본 논문에서는 time window를 10분으로 설정했고, 8개의 균일하게 분포된 window와, 각 window에서 200k개의 샘플이 포함된 경우가 실제 트래픽 분포와 매우 유사하다고 함.
FeCo Computation
Experiments
Usage of FeCo
음 뭔가 잘 모르겠는 논문ㅠ-ㅠ 뭔가 제대로 이해하면 써먹을 수 있을 것 같은데,,, 나중에 다시 읽어봐야 할 듯