AdeDZY / K-NRM

K-NRM: End-to-End Neural Ad-hoc Ranking with Kernel Pooling
BSD 3-Clause "New" or "Revised" License
202 stars 43 forks source link

关于训练样本数据的疑问 #5

Open moluxiaobei opened 6 years ago

moluxiaobei commented 6 years ago

你好,打扰问下,query \t postive_document \t negative_document \t score_difference 这个训练数据如何产生呢?score_difference能否再解释一次,是什么分数的差异,我如何构造这样的样本,谢谢!

AdeDZY commented 6 years ago

比如你有一个query, 和三个文章:doc1, doc2, doc3. query 和 doc1: 很相关. relevance= 2 query 和 doc2: 有点相关. relevance= 1 query 和 doc3: 不相关. relevance= 0 (relevance score来自于人工标注,或者通过clickthrough data)

那么生成的样本有: query doc1 doc2 score_difference=2-1=1 query doc1 doc3 score_difference=2-0=2 query doc2 doc3 score_difference=1-0=1

moluxiaobei commented 6 years ago

谢谢博士学姐回复!因为这个相关不能人工判断,我打算利用query doc的点击或者点击率来代替。

AdeDZY commented 6 years ago

可以的!我们的论文里也是使用clicks。 On Mon, Jan 8, 2018 at 9:03 PM moluxiaobei notifications@github.com wrote:

谢谢博士学姐回复!因为这个相关不能人工判断,我打算利用query doc的点击或者点击率来代替。

— You are receiving this because you commented.

Reply to this email directly, view it on GitHub https://github.com/AdeDZY/K-NRM/issues/5#issuecomment-356156575, or mute the thread https://github.com/notifications/unsubscribe-auth/AE8DmFALWRqTFmck5LdFv9RRXTsFO5NVks5tIsjbgaJpZM4RNd95 .

-- Zhuyun Dai Language Technologies Institute School of Computer Science Carnegie Mellon University

moluxiaobei commented 6 years ago

你好,再问下,代码里self.embeddings = tf.Variable(tf.random_uniform([self.vocabulary_size + 1, self.embedding_size], -1.0, 1.0))是产出词向量的,那么每一个词对应的一个向量表示是不是在loss稳定后输出就是每个词的向量表示,根据这些向量找每个词最相似的词用余弦相似度计算是否可以?目前遇到的问题是迭代中虽然还没完全收敛,但是训练效果还可以,但是如果用这些向量找相似,发现词和词之间关系并不是很强,随机成分还是有很多?先谢谢了!!