End-to-End Neural Ad-hoc Ranking with Kernel Pooling

Abstract

K-NRM - Kernel-based Neural Ranking Model
- word embedding(w2v)에 의해 계산된 query와 doc 사이의 word-level similarities을 모델화한 "translation matrix"(??) 를 이용
- kernel-pooling technique -> multi-level soft match(?) features 추출
- 이러한 feature를 이용하여 l2r의 final score를 도출
end-to-end
pairwise ranking loss

KERNEL BASED NEURAL RANKING

Ranking from Scratch

ranking score : f(q,d)
- query(q) :
- document(d) :
Translation Model
- 각각의 doc 와 query는 word(t)단위로 구성되어 있고, 이 각각은 w2v같은 embedding vector() 로 표현가능.
- translation layer (Fig.1참고)에서는 translation matrix M 를 구성한다.
  - 당연히, q와 d사이의 similarity를 의미
  - 이 연구에서는 학습에 의한 Similarity가 아닌 그냥 cosine으로 해결
Kernel-Pooling
- translation matrix M에서 word와 word간의 interaction들을 query와 document간의 ranking feature()로 전환하기 위해 kernel를 이용.
- 은 translation matrix M에서 i번째 query에 해당하는 값을 K kernel에 적용한것이다.
  - 자세히 보면, (translation matrix M에서 i번째 query에 해당하는 값) > 이 하나에 여러개의 Kernel를 적용하고 있다.
    - kernel수 K = ?(소스보니 11인것으로 보여 임의수이고)
    - word와 doc의 relation이 이 11개의 bin 으로 matching된다는 의미(각 빈에 대한 weight)로 볼수 있을것같은데..좀더 살펴봐야겠다.
      - 밑에도 설명도 있지만, 하나의 값(translation matrix M에서 i번째 query에 해당하는 값)은 kernel의 성격을 결정하는 와 즉, 각 11개씩 이들을 가지고 있는 kernel(11개)를 의미하면, 각 kernel로 mapping되고
  - 이들을 summarizing (pooling) 통해 query-document ranking features 도출
- log-sum 하면 query word’s feature vector는 query-document ranking feature vector( )로 형성됨.
- 이떄, Kernel K는 RBF kernel를 이용 > Gaussian
  - M_ij = u_k 일 때 -> exp(0) = 1, M_ij - u_k = inf 일때, -> exp(-inf) = 0 : 참고
  - soft-TF 개념에서,
    - 는 similarity level 결정. 1 & 0.5
      - 만약, 0.5를 가진 커널은 query 단어와의 유사성이 0.5에 가까운 문서(doc) 단어의 수를 계산.
        
        관련 소스 레벨 참조
    - : kernel의 범위 또는 soft-TF의 count 범위를 정의
Learning to Rank
- ranking feature()은 ranking layer에서 combined됨.
- 이는 "final ranking score" 를 내기 위한(다음식의 입력값) 식.
이제까지 위의 수식들을 정리하면,

Learning End-to-End

pairwise (ranking) loss
- 는 GT
- ranking param : w, b
- 는 word embedding

EXPERIMENTAL METHODOLOGY

Dataset

Sogou.com(Chinese)회사의 search logs 에서 샘플링된 query log
- query log > document titles & URL
  Relevance Labels and Evaluation Scenarios
For our experiments training labels were generated based on user clicks from the training sessions.
좀더 데이터를 보는게 필요할듯..(구현할때~)

Implementation Details

Model training : was done on the full training data as in Table 1, with training labels inferred by DCTR
embedding layer : 300 dim, vocabulary size: 165, 877, word2vec
kernel pooling layer
- K = 11 kernels
  - K=1이면, exact matches

EVALUATION RESULTS

이 연구는 이후에 더 많은 부분을 할애했는데..일단 여기까지하고, 추후에 더 읽어본다.

chullhwan-song / Reading-Paper

End-to-End Neural Ad-hoc Ranking with Kernel Pooling #258

Abstract

KERNEL BASED NEURAL RANKING

Ranking from Scratch

Learning End-to-End

EXPERIMENTAL METHODOLOGY

Dataset

Relevance Labels and Evaluation Scenarios

Implementation Details

EVALUATION RESULTS