关于文章中所用的测试集

guxd / deep-code-search

DeepCS: Deep Code Search

MIT License

278 stars 85 forks source link

关于文章中所用的测试集 #66

Closed LeeSureman closed 2 years ago

LeeSureman commented 3 years ago

你好，根据文章和issue，测试集应该是对应paper里的table1的50个query，请问它们对应的ground truth在哪呢？

guxd commented 2 years ago

search问题的候选答案非常多，没有提前准备ground truth. 我们是搜索完后由人工评估第几个结果相关。

LeeSureman commented 2 years ago

感谢你的及时回复，还有一件事想麻烦你们一下，那请问除了那50个query 可以当作测试集之外，还有什么其它数据集可以当作测试集嘛，我最近需要和“Self-Supervised Contrastive Learning for Code Retrieval and Summarization via Semantic-Preserving Transformations”这个工作比较一下，他们在你们这个数据集上做了测试（5.3节），但好像也没说具体报的性能是哪个测试集上测的，或许是不是大家通常会选择某个测试集来报性能？我之前不是做code的，对你们这个领域不太了解，感谢。如果你能够帮助我，我会非常感激

guxd commented 2 years ago

这篇文章确实没讲清楚是哪个测试集。文中说”16million“, 推测是指我们的codebase大小。也就是 ‘use.XXX.h5'文件。 50个query是我们最终做人工评估用的，如果进行自动评估的话可以用我们的验证集”valid.XXX.h5“去测试。

LeeSureman commented 2 years ago

这篇文章确实没讲清楚是哪个测试集。文中说”16million“, 推测是指我们的codebase大小。也就是 ‘use.XXX.h5'文件。 50个query是我们最终做人工评估用的，如果进行自动评估的话可以用我们的验证集”valid.XXX.h5“去测试。

非常感谢你的及时回复！！我再争取去请教一下他们的实验细节，唉我主要是想在同一个测试集上比，如果不行的话，可能也没办法比。。非常感谢