issues
search
chullhwan-song
/
Reading-Paper
151
stars
26
forks
source link
End-to-End Neural Ad-hoc Ranking with Kernel Pooling
#258
Open
chullhwan-song
opened
4 years ago
chullhwan-song
commented
4 years ago
https://arxiv.org/abs/1706.06613
chullhwan-song
commented
4 years ago
Abstract
K-NRM -
K
ernel-based
N
eural
R
anking
M
odel
word embedding(w2v)에 의해 계산된 query와 doc 사이의 word-level similarities을 모델화한 "translation matrix"(??) 를 이용
kernel-pooling technique -> multi-level
soft match(?)
features 추출
이러한 feature를 이용하여 l2r의 final score를 도출
end-to-end
pairwise ranking loss
KERNEL BASED NEURAL RANKING
Ranking from Scratch
ranking score : f(q,d)
query(q) :
document(d) :
Translation Model
각각의 doc 와 query는 word(t)단위로 구성되어 있고, 이 각각은 w2v같은 embedding vector(
) 로 표현가능.
translation layer (Fig.1참고)에서는 translation matrix M 를 구성한다.
당연히, q와 d사이의 similarity를 의미
이 연구에서는 학습에 의한 Similarity가 아닌 그냥 cosine으로 해결
Kernel-Pooling
translation matrix M에서 word와 word간의 interaction들을 query와 document간의 ranking feature(
)로 전환하기 위해 kernel를 이용.
은 translation matrix M에서 i번째 query에 해당하는 값을 K kernel에 적용한것이다.
자세히 보면, (translation matrix M에서 i번째 query에 해당하는 값) > 이 하나에 여러개의 Kernel를 적용하고 있다.
kernel수 K = ?(소스보니 11인것으로 보여 임의수이고)
word와 doc의 relation이 이 11개의 bin 으로 matching된다는 의미(각 빈에 대한 weight)로 볼수 있을것같은데..좀더 살펴봐야겠다.
밑에도 설명도 있지만, 하나의 값(translation matrix M에서 i번째 query에 해당하는 값)은 kernel의 성격을 결정하는
와
즉, 각 11개씩 이들을 가지고 있는 kernel(11개)를 의미하면, 각 kernel로 mapping되고
이들을 summarizing (pooling) 통해 query-document ranking features 도출
log-sum 하면 query word’s feature vector는 query-document ranking feature vector(
)로 형성됨.
이떄, Kernel K는 RBF kernel를 이용 > Gaussian
M_ij = u_k 일 때 -> exp(0) = 1, M_ij - u_k = inf 일때, -> exp(-inf) = 0 :
참고
soft-TF 개념에서,
는 similarity level 결정. 1 & 0.5
만약, 0.5를 가진 커널은 query 단어와의 유사성이 0.5에 가까운 문서(doc) 단어의 수를 계산.
관련
소스
레벨 참조
: kernel의 범위 또는 soft-TF의 count 범위를 정의
Learning to Rank
ranking feature(
)은 ranking layer에서 combined됨.
이는 "final ranking score" 를 내기 위한(다음식의 입력값) 식.
이제까지 위의 수식들을 정리하면,
Learning End-to-End
pairwise (ranking) loss
는 GT
ranking param : w, b
는 word embedding
EXPERIMENTAL METHODOLOGY
Dataset
Sogou.com(Chinese)회사의 search logs 에서 샘플링된 query log
query log > document titles & URL
Relevance Labels and Evaluation Scenarios
For our experiments
training labels
were generated based on
user click
s from the training sessions.
좀더 데이터를 보는게 필요할듯..(구현할때~)
Implementation Details
Model training : was done on the full training data as in Table 1, with training labels inferred by DCTR
embedding layer : 300 dim, vocabulary size: 165, 877, word2vec
kernel pooling layer
K = 11 kernels
K=1이면, exact matches
EVALUATION RESULTS
이 연구는 이후에 더 많은 부분을 할애했는데..일단 여기까지하고, 추후에 더 읽어본다.
https://arxiv.org/abs/1706.06613