Closed LeeSureman closed 2 years ago
search问题的候选答案非常多,没有提前准备ground truth. 我们是搜索完后由人工评估第几个结果相关。
感谢你的及时回复,还有一件事想麻烦你们一下,那请问除了那50个query 可以当作测试集之外,还有什么其它数据集可以当作测试集嘛,我最近需要和“Self-Supervised Contrastive Learning for Code Retrieval and Summarization via Semantic-Preserving Transformations”这个工作比较一下,他们在你们这个数据集上做了测试(5.3节),但好像也没说具体报的性能是哪个测试集上测的,或许是不是大家通常会选择某个测试集来报性能?我之前不是做code的,对你们这个领域不太了解,感谢。如果你能够帮助我,我会非常感激
这篇文章确实没讲清楚是哪个测试集。文中说”16million“, 推测是指我们的codebase大小。也就是 ‘use.XXX.h5'文件。 50个query是我们最终做人工评估用的,如果进行自动评估的话可以用我们的验证集”valid.XXX.h5“去测试。
这篇文章确实没讲清楚是哪个测试集。文中说”16million“, 推测是指我们的codebase大小。也就是 ‘use.XXX.h5'文件。 50个query是我们最终做人工评估用的,如果进行自动评估的话可以用我们的验证集”valid.XXX.h5“去测试。
非常感谢你的及时回复!!我再争取去请教一下他们的实验细节,唉我主要是想在同一个测试集上比,如果不行的话,可能也没办法比。。非常感谢
你好,根据文章和issue,测试集应该是对应paper里的table1的50个query,请问它们对应的ground truth在哪呢?