jindongwang / transferlearning

Transfer learning / domain adaptation / domain generalization / multi-task learning etc. Papers, codes, datasets, applications, tutorials.-迁移学习
http://transferlearning.xyz/
MIT License
13.24k stars 3.8k forks source link

关于office home数据集的问题 #409

Closed arxhsyd123 closed 1 year ago

arxhsyd123 commented 1 year ago

王老师您好,我想提问一个关于数据集的问题,我在officehome的官方网站和您的网站都下载了一遍,数据集完全一致,结构都是这样的,有四个文件夹,和一个imagelist 和imageinfo。 但是我想要复现的一篇论文,他是说需要数据集长这个样子。 note:: Inroot, there will exist following files after downloading. :: Art/ Alarm_Clock/*.jpg ... Clipart/ Product/ Real_World/ image_list/ Art.txt Clipart.txt Product.txt Real_World.txt """ download_list = [ ("image_list", "image_list.zip", "https://cloud.tsinghua.edu.cn/f/ca3a3b6a8d554905b4cd/?dl=1"), ("Art", "Art.tgz", "https://cloud.tsinghua.edu.cn/f/4691878067d04755beab/?dl=1"), ("Clipart", "Clipart.tgz", "https://cloud.tsinghua.edu.cn/f/0d41e7da4558408ea5aa/?dl=1"), ("Product", "Product.tgz", "https://cloud.tsinghua.edu.cn/f/76186deacd7c4fa0a679/?dl=1"), ("Real_World", "Real_World.tgz", "https://cloud.tsinghua.edu.cn/f/dee961894cc64b1da1d7/?dl=1") ] 也就是说,他认为,imagelist应该是一个文件夹,里面包含了多个TXT文件,作者提供的下载连接已经失效了,我看到officehome官方的文件只有 一个image_list文件,所以我很迷惑,是需要做进一步的处理吗,但是我看我下载的image_list的文件内容难以区分出来类别,所以想请教一下您,碰到这样的情况应该怎么办?

jindongwang commented 1 year ago

原始的数据就是一个domain一个文件夹。我知道后续有一些paper开源用的是image list,就是把路径、domain、label都存在一个文件里。这样也比较简单:你写一个脚本处理一下就行,只要满足它们的格式就可以。或者另一个方法是你去修改他的data loader,换成你要的data loader。

arxhsyd123 commented 1 year ago

好的,明白了。谢谢王老师。