测序数据处理 —— 数据上传

测序数据处理 —— 数据上传 by 生信杂货铺

NCBI 的重要性不用说明，你知道的，它很重要。

在发表文章时，一般都会要求公开文章中使用的数据。例如，将测序数据上传到 NCBI 的 GEO 或者 SRA 服务器中，然后在文章中使用数据库提供的编号，方便其他人检索和使用。

下面，我们简单介绍一下 NCBI 测序数据的上传流程。

注意：请确保读完整个文档再开始上传数据，切记！！

上传到 `SRA`

将数据上传到 NCBI SRA 数据库，需要对这份数据进行一个描述，包括前期项目情况、样本属性及制备情况等。而BioProject 和 BioSample 就是用来描述研究项目的、研究背景、材料属性等基本信息。

一个 BioProject 代表一项测序研究项目，可包含多个 BioSample，也可以包含多次实验 experiments，所以在提交数据前，先申请 BioProject 号和 BioSample 号。

通常 BioSample 编号以 SAMN 开头，如 SAMN*****；BioProject 编号以 PRJNA 开头，如 PRJNA*****。这两个编号在后续 SRA 提交过程中会用到。

向 SRA 提交数据一般包括以下几个步骤：

创建 BioPreject 和 BioSample ID
BioProject 和 BioSample 创建完成后，再转到 SRA 的网页，创建 New Submission，并完成信息填写;
完成上述步骤后，网页上 NCBI 会给出一个登录 FTP 的账号和网址链接;
登录后用账号可直接上传(复制粘贴)，或用软件 FileZilla 或 Aspera 上传;
生成相应的 GSE 编号，供发表文章使用。

1. 注册账号

已有账号请跳过！！

进入 NCBI 官网，点击登录

点击注册

不要注册自己的账号，要用老板的账号注册，已经注册完可以跳过该步骤

一般使用 ORCID 即可

登录后点击 Submit 进行上传数据界面

点击 My submissions

2. 创建 `BioSample`

选择 BioSample

点击 New submission 进入提交者信息界面

2.1 `SUBMITTER`

填写个人基本信息，如果已经提交过会自动填补，无需修改，点击 continue 直接进入下一步。

提示：email 选项中，两个邮箱中要留一个该测序项目负责人的常用邮箱，因为后期如果想要修改数据信息或者释放时间，都需要该邮箱发送邮件到 NCBI 才会被受理。

2.2 `GENERAL INFO`

选择数据释放时间，可以立即释放或特定时间点释放，一般选哪一个都不影响。如果数据比较重要，可以选择较晚的时间点，等文章发表之后再回来修改释放时间。
选择样本类型，是选择多样本还是单样本上传，一般都是多个样本。

2.3 `SAMPLE TYPE`

根据样品实际情况选择样本来源。这里选择人类

2.4 `ATTRIBUTES`

样本信息，可以直接在线填写

或者下载表格到本地，填完之后再上传

一般先下载 Excel 表格，在本地填写相关信息，表格中每一列该怎么填都有相应的说明。

必填项目包括

填写完表格之后，点击上传

注意：表格提交后，一定要保证没有任何 warnings，否则可能需要等待 2 个工作日才能重新进行该步骤。

2.5 `Review & Submit`

确定无误之后便可以点击提交

3. 创建 `BioPreject`

3.1 创建 `BioProject ID`

在 My submissions 中选择 Bioproject

然后点击 New submission

3.2 `SUBMITTER`

根据研究项目实际情况，填写一系列的信息，填完所有步骤后，要点击页面下方的 continue，保存已填写的信息。提交或保存过信息会自动填充，不需要每次提交都填写一次。

3.3 `PROJECT TYPE`

Project Type：可根据自己的项目类型选择，一般高通量测序数据可选择 Raw sequence reads。

Sample scope：是对实验样品的简洁描述，根据不同选择会影响后面 TARGET 的填写，可选择

Monoisolate
Multiisolate
Monoisolate
Environment
Synthetic
others

对各种类型的说明如下截图:

确认选择然后进入下一步

3.4 `TARGET`

选择物种名称，人类（Homo Sapiens）或鼠（Mus musculus）

3.5 `GENERAL INFO`：基本信息

Release date：这个是您的数据公开日期，可以点击立即释放，也可以选择具体时间； Project title：根据 TARGET 提供一个简短的标题，如：

Chromosome Y sequencing；
Opportunistic pathogen that causes important food-born disease；
Global studies of microbial diversity on human skin

Public description：对研究目标及相关的内容进行描述。

注意：最后一个必填选项中是选择是否关联其他数据，若选择“No”则红框中的内容不进行填写；选择 “Yes”，红框中的内容为必填项。

3.6 `BIOSAMPLE`

项目里面的样品名称（编号 SAMNXXXXXXXX），需要与创建 Biosample 时的样品名称一致。选择上一步中注册好的样本项目编号。

但是这里只能填写一个样本编号，所以一般会先跳过这个步骤，直接进入下一步。在创建 SRA 项目时会填写一个元数据表，将 BioProject 与样本联系起来。

点击 continue，完成注册

3.7 `PUBLICATIONS`

填写 PubMed ID 或 DOI 号。一般跳过，在文章发表之后再来填写。

说明：BioSample 和 Publications 这两步可以省略，后期发邮件给 NCBI 进行修改。

3.8 `Review & Submit`

审核信息没问题就可以提交

4. 创建 `SRA` 项目

从 My submissions 进入 SRA 上传界面

然后点击 New submission。

4.1 `SUBMITTER`

与前面一样相同，如果已经成功提交过的会自动填补，无需修改。

4.2 `GENERAL`

直接引用上述创建的 BioProject 就可以，在 BioSample 中选择 yes 就行，此外还需要设置 Release date，数据的释放时间一般尽可能选择文章发表之后，后续也可以根据实际需要进行更改。

4.3 `SRA METADATA`

可选择在线填写或者下载 Excel 表格填写后上传。其中 BioProject 、BioSample 的编号 PRJNA#和 SAMN# 是必填的。

表格内容

表格中需填写的内容说明如下：

上传成功之后，继续下一步，如果有报错解决错误重新上传

4.4 `FILES`

上传数据文件。如果数据量比较小，可以使用在线方式上传。但一般我们上传的测序数据都不会小，所以最好的方式是选择 FTP 客户端软件（如 Filezilla）或 Aspera 命令行的方式上传。

我们以 Filezilla 为例来演示如何上传文件，首先拿到地址和账户密码

打开 Filezilla，将

地址：ftp-private.ncbi.nlm.nih.gov
用户名：subftp
密码：mosEgweygV******

输进去后，登录 FTP 服务器。登录成功在后侧边栏将路径 uploads/yongyouzhang_hotmail.com_******** 输入进去并回车访问。并在该目录下新建一个文件夹，比如本次提交的编号 SUB13696019。最后，选择本地测序文件上传。

注意：所有在表格中列出的文件都要上传

4.5 `REVIEW & SUBMIT`

核查提交信息，确认无误后，点击 Submit。后续邮箱中会收到相应的 Accession number 的登录号（SRR*****或者 SRA*******），用于查询和检索。

如果您在上传的过程中遇到技术问题，可以联系 sra@ncbi.nlm.nih.gov 寻求帮助。

上传到 `GEO`

请忘了上面的内容吧！你应该可能用不到它了 ^_^！！

前面的内容适用于只想把测序原始数据上传到 SRA 数据库的情况，但通常我们上传数据只想要获取一个可用于文章中的 GSE 项目编号，且一般还会上传一些处理好的数据文件，所以直接上传到 GEO 数据库就好了，原始的测序文件他们会帮你搬到 SRA 数据库中的。最重要的是，上传到 GEO 数据库会更简单，只要填一个表就行。所以，下面的内容才是你真正应该掌握。

1. 注册 `GEO` 账号

已有账号请跳过！！

如果要上传到 GEO 数据库，与提交 SRA 数据相同，首先要建立一个 NCBI 的账号。然后需要注册一个 GEO 的账号，可以从 GEO 首页左下角的 Login to Submit 进入创建。创建完成后，点击 Save 保存信息，再进入 GEO 主页，这里就不演示了。

我们前面登录之后，直接访问 GEO 主页已经是登录状态，点击 Submission Guidelines

2. 上传数据

接下来，选择你要上传的数据类型，这里只介绍上传测序数据，点击 Submit high-throughput sequencing 进入数据提交页面。

2.1 上传文件类型

这里需要三种文件

元数据表：数据描述信息表，包括文件名称、样本信息、数据处理方式和校验码等；
处理好的文件：如果是 RNA-seq 一般是基因表达矩阵，可以是标准化后的 FPKM、TPM 等，也可以是 gene count；如果是 ATAC-seq 或 ChIP-seq，则一般是 bigwig 或 narrowPeak 文件。
原始文件：原始测序文件。

2.2 `Metadata spreadsheet`

先点击 Download metadata spreadsheet下载元数据表。

表格内容如下，我们只需要填写 Metadata Template 和 MD5 Checksums 两个表，Metadata Template 表不知道怎么填写可以参考后面的示例表格。

该表共包含 4 个部分，下面分别介绍每个部分该怎么填写

STUDY：跟文章相关的内容：标题，摘要，实验设计，参与者（根据自己情况填写）；
SAMPLES：跟样本信息相关的内容：样本名称、物种、测序仪型号等信息，以相应处理好的文件（表达值数据文件等）和原始数据（fastq 等），多个数据往后面加就行。
PROTOCOLS：样本的处理、提取和文库构建的描述，如样本提取及建库等，可以看测序服务商提供的文件中是否有相应的描述，没有可以找他要，他也不知道的话，可以 GEO 查看同类测序方法的协议，参考填写。还有数据处理方法以及处理好的数据文件格式等。
PAIRED-END EXPERIMENTS：如果是双端测序，列出配对的数据，这部分内容是非必填项。

2.3 `MD5 Checksums`

除了元数据表，还需要提供文件的 MD5 校验码，用于核对文件是否上传完整

一般原始文件的 MD5 码测序公司会提供，处理后的文件都是要自己算的。不同操作系统计算方法有差别，上面的表格也有说明

Unix：使用 md5sum 命令行工具，其中 *fq.gz 表示所有以 fq.gz 字符串结尾的文件，> 表示输出重定向，最终会将所有以 fq.gz 结尾的文件名及其对应的 MD5 码输出到文件 md5.txt 中

md5sum *fq.gz > md5.txt

Mac OS：Mac OS 操作系统可以用 md5 或 md5sum-lite，md5 命令默认输出结果与 Linux 不同，需要加 -r 参数

md5 -r *fq.gz > md5.txt
# or
md5sum-lite *fq.gz > md5.txt

Windows：Windows 操作系统可以选择测序公司提供的软件，也可以自己下载对应的软件，比如 md5sum.exe，下载解压之后放到一个简单容易访问的路径下面，运行下面的命令计算文件的 MD5 检验码。

# 计算单个文件的 MD5 码
path/to/md5sums.exe -u D5_DF1KO_Control_1.fq.gz
# 输出多个文件的 MD5 码
foreach ($file in Get-ChildItem -File -Filter "*.fq.gz") { & path/to/md5sums.exe -u -e $file.FullName }

如果使用 Excel 中推荐的系统工具 certutil，可以运行下面的命令，但是会输出很多没啥用的信息，不推荐使用

certutil -hashfile D5_DF1KO_Control_1.fq.gz MD5

输出文件 md5.txt 的格式如下

2.4 数据上传

数据上传主要包含两个步骤：

点击 Transfer Files 进入数据传输页面。网页中针对不同的操作系统 windows、MAC、Linux 上传数据都有详细说明。我们还是用 Filezilla 来上传数据。

先获取主机地址、用户名和密码，以及用户上传数据的路径

打开 Filezilla 连接到服务器，选择上面表格中填写的所有相关文件，当然也不要忘了这个表格。

上传完成之后要通知 GEO 让他们去处理提交的文件，并再次确认下列三种文件

原始数据
处理好的数据
元数据表格

都已经上传成功了。

没有问题的话，接下来两个工作日内应该会收到 GEO 的回复邮件，并告知您数据对应的 GEO 号。

如果有问题，按照邮件中的提示重新上传错误数据即可。

ixxmu / mp_duty