Open huiyiqun opened 7 years ago
看起来好像数据都挺老的了,更新并不频繁。 Anyway,我倒是觉得可以做一些 open datasets 的 mirroring
woc 这么多!
Google第一条。。我并不知道哪些是靠谱的。
感觉这些内容可以单独开个下载站,和 mirrors 独立的。单纯为科研做贡献了,相信还是有很多人需要的。
赞成!很多时候这些东西都很大而且下载奇慢。。
扔其他机器上,然后另开一个域名,比如 dataset.tuna.tsinghua.edu.cn ?
不过咱们本身团队不大,搞两套有点麻烦,起码尽量复用tunasync吧。
其实不用tunasync吧,这些数据大部分都不需要更新,手工拖下来就可以了?
也不是没有道理,不过新的数据呢?每年组织一次集中开发,专门下载?我觉得咱们没这么多人力物力。
你们给我个账号..我rsync几百G东西上去就可以开搞了吧..
@ppwwyyxx Hi 我们换了硬盘,所以…嗯…之后可能就可以上线这个服务啦! 这几天我们研究一下怎么提供服务比较科学,先告诉你一下准备开搞~
我觉得我们实验室的开放数据也可以放上来hhh
赞!有讨论thread什么的么
@ppwwyyxx 面谈?
有什么进展吗
没有进展啊同学们.. 简单点搞的话,一个readme + 一个rsync就是一个dataset了.. 还行吧...
rsync 催了 @shankerwangmiao 快一年…
催我干啥?让我开 rsync 我从哪同步啊?上游也没搞清楚。。。。
催我干啥?让我开 rsync 我从哪同步啊?上游也没搞清楚。。。。
@shankerwangmiao 我跟你谈过好几次啊…… 需求是一个 ssh 账户,让 ppwwyyxx 直接 rsync 到服务器上。
所以我们要单独开一台服务器提供数据集服务吗?
只要能上几百 GB 的东西,container 都可以呀(
最好再搞一个repo,搜集这些dataset的算法(paper)代码库。。。 另外,域名是dataset还是datasets(逃
ping...
我写了一个上传和下载的架构,现在还缺个前端,以及服务器,现在看那台服务器的存储不一定够。
Hui Yi-qun
On Fri, Nov 30, 2018 at 2:03 PM Yuxin Wu notifications@github.com wrote:
ping...
— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/tuna/issues/issues/171#issuecomment-443101058, or mute the thread https://github.com/notifications/unsubscribe-auth/ADTrgAlwkDUXMj-vduh7dYUK0iZjQmtxks5u0MomgaJpZM4LFOwh .
Here are the links you requested:
singlecoil_train (~88 GB) singlecoil_val (~19 GB) singlecoil_test (~7 GB)
multicoil_train (~931 GB) multicoil_val (~192 GB) multicoil_test (~109 GB)
DICOMs_batch1 (~134 GB) DICOMs_batch2 (~30 GB) SHA256 Hash (0.5 KB)
To download, we recommend using curl with recovery mode turned on:
curl -O -C - s3.amazonaws.com/fastmri-datasets/singlecoil_train.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/singlecoil_val.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/singlecoil_test.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/multicoil_train.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/multicoil_val.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/multicoil_test.tar.gz curl -O -C - s3.amazonaws.com/fastmri-datasets/knee_mri_dicom_batch1.tar curl -O -C - s3.amazonaws.com/fastmri-datasets/knee_mri_dicom_batch2.tar curl -O -C - s3.amazonaws.com/fastmri-datasets/SHA256
For your reference, you can go to https://fastmri.med.nyu.edu for information on how to cite us as well as a copy of the data use agreement.
项目名称与简介(Project Intro.)
这里维护了很多免费的机器学习的数据集以及其他东西,对于学校的同学可能会有用。
上游地址与镜像方法(How to Mirror)
ftp://ftp.ics.uci.edu/pub/machine-learning-databases/
其他信息(Other)
DO NOT ACCEPT
放到这里主要是为了方便讨论,当前同步这个repo有许多问题,比如:
所以先让这个issue open吧,大家有什么看法可以在这里讨论一下。