关于训练样本数据的疑问

AdeDZY / K-NRM

K-NRM: End-to-End Neural Ad-hoc Ranking with Kernel Pooling

BSD 3-Clause "New" or "Revised" License

202 stars 43 forks source link

关于训练样本数据的疑问 #5

Open moluxiaobei opened 6 years ago

moluxiaobei commented 6 years ago

你好，打扰问下，query \t postive_document \t negative_document \t score_difference 这个训练数据如何产生呢？score_difference能否再解释一次，是什么分数的差异，我如何构造这样的样本，谢谢！

AdeDZY commented 6 years ago

比如你有一个query, 和三个文章:doc1, doc2, doc3. query 和 doc1: 很相关. relevance= 2 query 和 doc2: 有点相关. relevance= 1 query 和 doc3: 不相关. relevance= 0 （relevance score来自于人工标注，或者通过clickthrough data）

那么生成的样本有： query doc1 doc2 score_difference=2-1=1 query doc1 doc3 score_difference=2-0=2 query doc2 doc3 score_difference=1-0=1

moluxiaobei commented 6 years ago

谢谢博士学姐回复！因为这个相关不能人工判断，我打算利用query doc的点击或者点击率来代替。

AdeDZY commented 6 years ago

可以的！我们的论文里也是使用clicks。 On Mon, Jan 8, 2018 at 9:03 PM moluxiaobei notifications@github.com wrote:

谢谢博士学姐回复！因为这个相关不能人工判断，我打算利用query doc的点击或者点击率来代替。

— You are receiving this because you commented.

Reply to this email directly, view it on GitHub https://github.com/AdeDZY/K-NRM/issues/5#issuecomment-356156575, or mute the thread https://github.com/notifications/unsubscribe-auth/AE8DmFALWRqTFmck5LdFv9RRXTsFO5NVks5tIsjbgaJpZM4RNd95 .

-- Zhuyun Dai Language Technologies Institute School of Computer Science Carnegie Mellon University

moluxiaobei commented 6 years ago

你好，再问下，代码里self.embeddings = tf.Variable(tf.random_uniform([self.vocabulary_size + 1, self.embedding_size], -1.0, 1.0))是产出词向量的，那么每一个词对应的一个向量表示是不是在loss稳定后输出就是每个词的向量表示，根据这些向量找每个词最相似的词用余弦相似度计算是否可以？目前遇到的问题是迭代中虽然还没完全收敛，但是训练效果还可以，但是如果用这些向量找相似，发现词和词之间关系并不是很强，随机成分还是有很多？先谢谢了！！