tuna / dataset-issues

Issues about academic dataset mirrors
5 stars 0 forks source link

Machine learning dataset #6

Open huiyiqun opened 7 years ago

huiyiqun commented 7 years ago

项目名称与简介(Project Intro.)

这里维护了很多免费的机器学习的数据集以及其他东西,对于学校的同学可能会有用。

上游地址与镜像方法(How to Mirror)

ftp://ftp.ics.uci.edu/pub/machine-learning-databases/

其他信息(Other)

DO NOT ACCEPT

放到这里主要是为了方便讨论,当前同步这个repo有许多问题,比如:

  1. 许可问题,README和banner里并没有提到是否允许重分发或者重分发需要注意什么,稍后闲一些了我会发邮件去询问。
  2. FTP同步可能不太高效?
  3. 可能这里的数据并没有什么用?

所以先让这个issue open吧,大家有什么看法可以在这里讨论一下。

bigeagle commented 7 years ago

看起来好像数据都挺老的了,更新并不频繁。 Anyway,我倒是觉得可以做一些 open datasets 的 mirroring

huiyiqun commented 7 years ago

像这些吗?

https://github.com/caesar0301/awesome-public-datasets

bigeagle commented 7 years ago

woc 这么多!

huiyiqun commented 7 years ago

Google第一条。。我并不知道哪些是靠谱的。

bigeagle commented 7 years ago

感觉这些内容可以单独开个下载站,和 mirrors 独立的。单纯为科研做贡献了,相信还是有很多人需要的。

gaoyichuan commented 7 years ago

赞成!很多时候这些东西都很大而且下载奇慢。。

huiyiqun commented 7 years ago

扔其他机器上,然后另开一个域名,比如 dataset.tuna.tsinghua.edu.cn ?

不过咱们本身团队不大,搞两套有点麻烦,起码尽量复用tunasync吧。

gaoyichuan commented 7 years ago

其实不用tunasync吧,这些数据大部分都不需要更新,手工拖下来就可以了?

huiyiqun commented 7 years ago

也不是没有道理,不过新的数据呢?每年组织一次集中开发,专门下载?我觉得咱们没这么多人力物力。

ppwwyyxx commented 7 years ago

你们给我个账号..我rsync几百G东西上去就可以开搞了吧..

dotkrnl commented 7 years ago

@ppwwyyxx Hi 我们换了硬盘,所以…嗯…之后可能就可以上线这个服务啦! 这几天我们研究一下怎么提供服务比较科学,先告诉你一下准备开搞~

xavieryao commented 7 years ago

我觉得我们实验室的开放数据也可以放上来hhh

ppwwyyxx commented 7 years ago

赞!有讨论thread什么的么

bigeagle commented 7 years ago

@ppwwyyxx 面谈?

xavieryao commented 7 years ago

有什么进展吗

huiyiqun commented 6 years ago

进一步讨论移至这里

ppwwyyxx commented 6 years ago

没有进展啊同学们.. 简单点搞的话,一个readme + 一个rsync就是一个dataset了.. 还行吧...

dotkrnl commented 6 years ago

rsync 催了 @shankerwangmiao 快一年…

shankerwangmiao commented 6 years ago

催我干啥?让我开 rsync 我从哪同步啊?上游也没搞清楚。。。。

dotkrnl commented 6 years ago

催我干啥?让我开 rsync 我从哪同步啊?上游也没搞清楚。。。。

@shankerwangmiao 我跟你谈过好几次啊…… 需求是一个 ssh 账户,让 ppwwyyxx 直接 rsync 到服务器上。

shankerwangmiao commented 6 years ago

所以我们要单独开一台服务器提供数据集服务吗?

dotkrnl commented 6 years ago

只要能上几百 GB 的东西,container 都可以呀(

eccstartup commented 6 years ago

最好再搞一个repo,搜集这些dataset的算法(paper)代码库。。。 另外,域名是dataset还是datasets(逃

ppwwyyxx commented 5 years ago

ping...

huiyiqun commented 5 years ago

我写了一个上传和下载的架构,现在还缺个前端,以及服务器,现在看那台服务器的存储不一定够。

Hui Yi-qun

On Fri, Nov 30, 2018 at 2:03 PM Yuxin Wu notifications@github.com wrote:

ping...

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/tuna/issues/issues/171#issuecomment-443101058, or mute the thread https://github.com/notifications/unsubscribe-auth/ADTrgAlwkDUXMj-vduh7dYUK0iZjQmtxks5u0MomgaJpZM4LFOwh .

eccstartup commented 5 years ago

Here are the links you requested:

singlecoil_train (~88 GB) singlecoil_val (~19 GB) singlecoil_test (~7 GB)

multicoil_train (~931 GB) multicoil_val (~192 GB) multicoil_test (~109 GB)

DICOMs_batch1 (~134 GB) DICOMs_batch2 (~30 GB) SHA256 Hash (0.5 KB)

To download, we recommend using curl with recovery mode turned on:

curl -O -C - s3.amazonaws.com/fastmri-datasets/singlecoil_train.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/singlecoil_val.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/singlecoil_test.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/multicoil_train.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/multicoil_val.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/multicoil_test.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/knee_mri_dicom_batch1.tar curl -O -C - s3.amazonaws.com/fastmri-datasets/knee_mri_dicom_batch2.tar curl -O -C - s3.amazonaws.com/fastmri-datasets/SHA256

For your reference, you can go to https://fastmri.med.nyu.edu for information on how to cite us as well as a copy of the data use agreement.