willard-yuan / cnn-cbir-benchmark

CNN CBIR benchmark (ongoing)
193 stars 53 forks source link

请问这里的Landmark数据集全名是google-landmark吗 #16

Closed Anonymous-so closed 5 years ago

Anonymous-so commented 5 years ago

博主您好~您之前在https://github.com/willard-yuan/cnn-cbir-benchmark/issues/2这里的解答是我找了很久的答案,感谢!

  1. 顺着上面的链接我找到了这里的数据集landmark,下载下来文件名为NCimages。请问这个landmark数据集就是google-landmarks吗~
  2. 对于用来训练网络的训练集,可否推荐数据量更小一些的一个数据集呢~在论文中看到的训练数据集一般都蛮大的,但实际训练中很难经常用那么大的数据集训练
willard-yuan commented 5 years ago

@lusofa 为这些解答能够为你创造价值表示欣慰。NCimages是Neural Codes for Image Retrieval 这篇文章里公布的Landmarks dataset数据集,不是google-landmarks数据集,这个NCimages数据集并不是完整的Landmarks dataset数据集,有一些图片还是有缺失的(url损坏导致无法下载)。

后面End-to-end Learning of Deep Visual Representations for Image Retrieval这篇文章用SIFT对Landmarks dataset做了清洗,得到了一个Landmarks clean dataset,这个数据集我问了很多人,详见这里,由于版权原因只公布了url,但是url很多损坏了。我比较推荐你用这个Landmarks clean dataset,如果你能获取到的话。这个数据集清洗得比较好,而且图片规模也不是很大,现在很多公开的检索论文,差不多都会用这个数据集训练一下。

如果你能搞到这个Landmarks clean dataset,请给我也share一份。

Anonymous-so commented 5 years ago

非常感谢您的耐心解答。 请问通常是如何对检索任务中的训练数据集进行划分呢?是像分类任务一样随机划分为[训练,验证,测试]3个部分,每次训练时同时得出验证&测试分类结果,同时在oxford5k/paris6k上得到检索结果; 又或是只划分为[训练集,验证集],随后仅在oxford5k/paris6k等验证数据集上进行测试呢?

willard-yuan commented 5 years ago

可以只用来做训练集,oxford5k/paris6k作为测试集,训练的时候,可以每迭代几个epoch后,在oxford5k/paris6k上测试一下,看看MAP。

Anonymous-so commented 5 years ago

受教了,非常感谢!