Closed ixxmu closed 6 months ago
NCBI
的重要性不用说明,你知道的,它很重要。
在发表文章时,一般都会要求公开文章中使用的数据。例如,将测序数据上传到 NCBI
的 GEO
或者 SRA
服务器中,然后在文章中使用数据库提供的编号,方便其他人检索和使用。
下面,我们简单介绍一下 NCBI
测序数据的上传流程。
注意:请确保读完整个文档再开始上传数据,切记!!
SRA
将数据上传到 NCBI SRA
数据库,需要对这份数据进行一个描述,包括前期项目情况、样本属性及制备情况等。而BioProject
和 BioSample
就是用来描述研究项目的、研究背景、材料属性等基本 信息。
一个 BioProject
代表一项测序研究项目,可包含多个 BioSample
,也可以包含多次实 验 experiments
,所以在提交数据前,先申请 BioProject
号和 BioSample
号。
通常 BioSample
编号以 SAMN
开头,如 SAMN*****
;BioProject
编号以 PRJNA
开头,如 PRJNA*****
。这两个编号在后续 SRA
提交过程中会用到。
向 SRA
提交数据一般包括以下几个步骤:
创建 BioPreject
和 BioSample ID
BioProject
和 BioSample
创建完成后,再转到 SRA
的网页,创建 New Submission
,并完成信息填写;
完成上述步骤后,网页上 NCBI
会给出一个登录 FTP
的账号和网址链接;
登录后用账号可直接上传(复制粘贴),或用软件 FileZilla
或 Aspera
上传;
生成相应的 GSE
编号,供发表文章使用。
已有账号请跳过!!
进入 NCBI
官网,点击登录
点击注册
不要注册自己的账号,要用老板的账号注册,已经注册完可以跳过该步骤
一般使用 ORCID
即可
登录后点击 Submit
进行上传数据界面
点击 My submissions
BioSample
选择 BioSample
点击 New submission
进入提交者信息界面
SUBMITTER
填写个人基本信息,如果已经提交过会自动填补,无需修改,点击 continue
直接进入下一步。
提示:email
选项中,两个邮箱中要留一个该测序项目负责人的常用邮箱,因为后期如果想要修改数据信息或者释放时间,都需要该邮箱发送邮件到 NCBI
才会被受理。
GENERAL INFO
SAMPLE TYPE
根据样品实际情况选择样本来源。这里选择人类
ATTRIBUTES
一般先下载 Excel
表格,在本地填写相关信息,表格中每一列该怎么填都有相应的说明。
必填项目包括
填写完表格之后,点击上传
注意:表格提交后,一定要保证没有任何 warnings
,否则可能需要等待 2
个工作日才能重新进行该步骤。
Review & Submit
确定无误之后便可以点击提交
BioPreject
BioProject ID
在 My submissions
中选择 Bioproject
然后点击 New submission
SUBMITTER
根据研究项目实际情况,填写一系列的信息,填完所有步骤后,要点击页面下方的 continue
,保存已填写的信息。提交或保存过信息会自动填充,不需要每次提交都填写一次。
PROJECT TYPE
Project Type
:可根据自己的项目类型选择,一般高通量测序数据可选择 Raw sequence reads
。
Sample scope
:是对实验样品的简洁描述,根据不同选择会影响后面 TARGET
的填写, 可选择
Monoisolate
Multiisolate
Monoisolate
Environment
Synthetic
others
对各种类型的说明如下截图:
确认选择然后进入下一步
TARGET
选择物种名称,人类(Homo Sapiens
)或鼠(Mus musculus
)
GENERAL INFO
:基本信息Release date
:这个是您的数据公开日期,可以点击立即释放,也可以选择具体时间; Project title
:根据 TARGET
提供一个简短的标题,如:
Chromosome Y sequencing
;
Opportunistic pathogen that causes important food-born disease
;
Global studies of microbial diversity on human skin
Public description
:对研究目标及相关的内容进行描述。
注意:最后一个必填选项中是选择是否关联其他数据,若选择“No”则红框中的内容不进行填写;选择 “Yes”,红框中的内容为必填项。
BIOSAMPLE
项目里面的样品名称(编号 SAMNXXXXXXXX
),需要与创建 Biosample
时的样品名称一致。选择上一步中注册好的样本项目编号。
但是这里只能填写一个样本编号,所以一般会先跳过这个步骤,直接进入下一步。在创建 SRA
项目时会填写一个元数据表,将 BioProject
与样本联系起来。
点击 continue
,完成注册
PUBLICATIONS
填写 PubMed ID
或 DOI
号。一般跳过,在文章发表之后再来填写。
说明:BioSample 和 Publications 这两步可以省略,后期发邮件给 NCBI 进行修改。
Review & Submit
审核信息没问题就可以提交
SRA
项目从 My submissions
进入 SRA
上传界面
然后点击 New submission
。
SUBMITTER
与前面一样相同,如果已经成功提交过的会自动填补,无需修改。
GENERAL
直接引用上述创建的 BioProject
就可以,在 BioSample
中选择 yes
就行,此外还需要设置 Release date
,数据的释放时间一般尽可能选择文章发表之后,后续也可以根据实际需要进行更改。
SRA METADATA
可选择在线填写或者下载 Excel
表格填写后上传。其中 BioProject
、BioSample
的编号 PRJNA#
和 SAMN#
是必填的。
表格内容
表格中需填写的内容说明如下:
上传成功之后,继续下一步,如果有报错解决错误重新上传
FILES
上传数据文件。如果数据量比较小,可以使用在线方式上传。但一般我们上传的测序数据都不会小,所以最好的方式是选择 FTP
客户端软件(如 Filezilla
)或 Aspera
命令行的方式上传。
我们以 Filezilla
为例来演示如何上传文件,首先拿到地址和账户密码
打开 Filezilla
,将
ftp-private.ncbi.nlm.nih.gov
subftp
mosEgweygV******
输进去后,登录 FTP
服务器。登录成功在后侧边栏将路径 uploads/yongyouzhang_hotmail.com_********
输入进去并回车访问。并在该目录下新建一个文件夹,比如本次提交的编号 SUB13696019
。最后,选择本地测序文件上传。
注意:所有在表格中列出的文件都要上传
REVIEW & SUBMIT
核查提交信息,确认无误后,点击 Submit
。后续邮箱中会收到相应的 Accession number
的登录号(SRR*****
或者 SRA*******
),用于查询和检索。
如果您在上传的过程中 遇到技术问题,可以联系 sra@ncbi.nlm.nih.gov
寻求帮助。
GEO
请忘了上面的内容吧!你应该可能用不到它了 ^_^
!!
前面的内容适用于只想把测序原始数据上传到 SRA
数据库的情况,但通常我们上传数据只想要获取一个可用于文章中的 GSE
项目编号,且一般还会上传一些处理好的数据文件,所以直接上传到 GEO
数据库就好了,原始的测序文件他们会帮你搬到 SRA
数据库中的。最重要的是,上传到 GEO
数据库会 更简单,只要填一个表就行。所以,下面的内容才是你真正应该掌握。
GEO
账号已有账号请跳过!!
如果要上传到 GEO
数据库,与提交 SRA
数据相同,首先要建立一个 NCBI
的账号。然后需要注册一个 GEO
的账号,可以从 GEO
首页左下角 的 Login to Submit
进入创建。创建完成后,点击 Save
保存信息,再进入 GEO
主页,这里就不演示了。
我们前面登录之后,直接访问 GEO
主页已经是登录状态,点击 Submission Guidelines
接下来,选择你要上传的数据类型,这里只介绍上传测序数据,点击 Submit high-throughput sequencing
进入数据提交页面。
这里需要三种文件
RNA-seq
一般是基因表达矩阵,可以是标准化后的 FPKM
、TPM
等,也可以是 gene count
;如果是 ATAC-seq
或 ChIP-seq
,则一般是 bigwig
或 narrowPeak
文件。Metadata spreadsheet
先点击 Download metadata spreadsheet
下载元数据表。
表格内容如下,我们只需要填写 Metadata Template
和 MD5 Checksums
两个表,Metadata Template
表不知道怎么填写可以参考后面的示例表格。
该表共包含 4
个部分,下面分别介绍每个部分该怎么填写
STUDY
:跟文章相关的内容:标题,摘要,实验设计,参与者(根据自己情况填写);
SAMPLES
:跟样本信息相关的内容:样本名称、物种、测序仪型号等信息,以相应处理好的文件(表达值数据文件等)和原始数据(fastq
等),多个数据往后面加就行。
PROTOCOLS
:样本的处理、提取和文库构建的描述,如样本提取及建库等,可以看测序服务商提供的文件中是否有相应的描述,没有可以找他要,他也不知道的话,可以 GEO
查看同类测序方法的协议,参考填写。还有数据处理方法以及处理好的数据文件格式等。
PAIRED-END EXPERIMENTS
:如果是双端测序,列出配对的数据,这部分内容是非必填项。
MD5 Checksums
除了元数据表,还需要提供文件的 MD5
校验码,用于核对文件是否上传完整
一般原始文件的 MD5
码测序公司会提供,处理后的文件都是要自己算的。不同操作系统计算方法有差别,上面的表格也有说明
Unix
:使用 md5sum
命令行工具,其中 *fq.gz
表示所有以 fq.gz
字符串结尾的文件,>
表示输出重定向,最终会将所有以 fq.gz
结尾的文件名及其对应的 MD5
码输出到文件 md5.txt
中md5sum *fq.gz > md5.txt
Mac OS
:Mac OS
操作系统可以用 md5
或 md5sum-lite
,md5
命令默认输出结果与 Linux 不同,需要加 -r
参数md5 -r *fq.gz > md5.txt
# or
md5sum-lite *fq.gz > md5.txt
Windows
:Windows
操作系统可以选择测序公司提供的软件,也可以自己下载对应的软件,比如 md5sum.exe
,下载解压之后放到一个简单容易访问的路径下面,运行下面的命令计算文件的 MD5
检验码。# 计算单个文件的 MD5 码
path/to/md5sums.exe -u D5_DF1KO_Control_1.fq.gz
# 输出多个文件的 MD5 码
foreach ($file in Get-ChildItem -File -Filter "*.fq.gz") { & path/to/md5sums.exe -u -e $file.FullName }
如果使用 Excel
中推荐的系统工具 certutil
,可以运行下面的命令,但是会输出很多没啥用的信息,不推荐使用
certutil -hashfile D5_DF1KO_Control_1.fq.gz MD5
输出文件 md5.txt
的格式如下
数据上传主要包含两个步骤:
点击 Transfer Files
进入数据传输页面。网页中针对不同的操作系统 windows
、MAC
、Linux
上传数据都有详细说明。我们还是用 Filezilla
来上传数据。
先获取主机地址、用户名和密码,以及用户上传数据的路径
打开 Filezilla
连接到服务器,选择上面表格中填写的所有相关文件,当然也不要忘了这个表格。
上传完成之后要通知 GEO
让他们去处理提交的文件,并再次确认下列三种文件
都已经上传成功了。
没有问题的话,接下来两个工作日内应该会收到 GEO
的回复邮件,并告知您数据对应的 GEO
号。
如果有问题,按照邮件中的提示重新上传错误数据即可。
https://mp.weixin.qq.com/s/QiXjrM1njUkJM23-2qNxWQ