ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
106 stars 30 forks source link

Single Cell Portal数据库查找与下载数据 #5596

Closed ixxmu closed 2 days ago

ixxmu commented 2 days ago

https://mp.weixin.qq.com/s/4p0-tV1XYb-k5pGcD_H9cw

ixxmu commented 2 days ago

Single Cell Portal数据库查找与下载数据 by 生信漫漫学

写在开头

好早好早之前就简单整理分享了一下单细胞的常用数据库——单细胞数据获取及格式介绍

而且还信誓旦旦的开了个新专辑,想着整理一下常见数据库的使用。不过结果就是整理了两个就搁置了,所以Flag就不立了,用到啥数据库就整理啥吧!

这次一起来看看Single Cell Portal数据库的使用,主要是从数据库查找与下载数据。

Single Cell Portal数据库简介

Single Cell Portal是一个单细胞研究项目数据库,可以用于查询研究项目和基因在不同细胞类型中的表达情况,目前包含740个研究项目和超过5027万个细胞的数据信息

可以根据研究项目或者基因进行搜索

收录的数据集会整理:

  • summary模块:对数据集进行简介
  • Explore模块:可以查看数据集可视化的情况
  • Download模块:下载数据存放处,需要登陆后才可以查看

数据查找

每个收录在Single Cell Portal的数据集都有自己对应的编号,当我们需要查找下载的时候,直接根据文献提供的编号即可

The single-cell sequencing data of 8953 cells from 33 human primary GBM samples were obtained from the Single Cell Portal platform (http://singlecell.broad insti tute.org) (accession number SCP50 and SCP393)

根据文章提供的编号,修改网址即可查找

https://singlecell.broadinstitute.org/single_cell/study/SCP50

下载数据

1. 根据命令下载全部数据

下载界面需要登陆之后才能正常打开,按照指引使用邮箱登陆即可。

SCP50这个数据集提供的数据下载还需要一些些linux技能,因为直接点击download下载链接,它会跳转展示具体的文件,但是没有给你下载!

这时候可以选择Bulk download获取下载命令

curl.exe "https://singlecell.broadinstitute.org/single_cell/api/v1/bulk_download/generate_curl_config?accessions=SCP50&auth_code=BDs5EtDE&directory=all&context=study"  -o cfg.txt; curl.exe -K cfg.txt ; if ($?) { rm cfg.txt }

不过这个看起来不像是一个可以运行成功的命令,所以果不其然它报错了!

求助了一下旁边的师弟,从他的mac上打开网址,然后拿到了一个和我不一样的命令!

curl -k "https://singlecell.broadinstitute.org/single_cell/api/v1/bulk_download/generate_curl_config?accessions=SCP50&auth_code=mFvjuDqw&directory=all&context=study"  -o cfg.txt; curl -K cfg.txt && rm cfg.txt

用这个命令就顺利的下载了全部的数据,主要区别就是在curl命令以及后面删除文件的命令上不同,大家后续下载别的数据集,替换掉就好

2. 直接下载需要的数据

有些数据是可以直接下载到本地的,那就点击下载的按钮直接选择需要的文件下载即可

正经结尾

咱就是说,果然还是需要使用到才会对数据库或者代码有更深的印象,遇到问题解决问题才是真理。

转眼已是中秋佳节,祝大家中秋快乐呀!