ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
103 stars 30 forks source link

流程总结 | 如何提交高通量测序数据到 GEO 数据库 #5299

Closed ixxmu closed 1 month ago

ixxmu commented 1 month ago

https://mp.weixin.qq.com/s/cPsR1i49__zQZmTcLDmg0g

ixxmu commented 1 month ago

流程总结 | 如何提交高通量测序数据到 GEO 数据库 by 被炸熟的虾

写在前面
由于最近在提交课题数据到 GEO 数据库,整理了相关笔记。本着自己学习、分享他人的态度,分享学习笔记,希望能对大家有所帮助。

目录

  • 1 提交说明(Submission instructions)
  • 2 数据文件压缩(Data File Compression)
  • 3 单细胞研究(Single-cell studies)
  • 4 组织您的提交(Organizing your submission)
  • 5 上传您的提交内容(Uploading your submission)
  • 6 一般信息(General Information)

官网教程:https://www.ncbi.nlm.nih.gov/geo/info/seq.html

1 提交说明(Submission instructions)

GEO 接受下一代测序数据,检测定量基因表达、基因调控、表观基因组学或功能基因组学的其他方面,使用 RNA-seq(包括单细胞)、miRNA-seq、ChIP-seq、RIP-seq、HiC-seq、methyl-seq 等方法。GEO 处理您研究的所有组成部分,包括样本、项目描述、处理的数据文件,并代表您将原始数据文件提交到 Sequence Read Archive (SRA)。

您需要按以下步骤提交:

  • Step 1. 检查 GEO 是否接受您的数据类型。
  • Step 2. 收集原始文件(raw files)。
  • Step 3. 收集经过处理的数据文件(processed data files)。
  • Step 4. 下载 metadata spreadsheet 并填写您研究项目的 Metadata 选项卡。每种数据类型使用一个 spreadsheet(例如 ChIP-seq、RNA-seq)。
  • Step 5. 在 metadata spreadsheet 文件中,在 MD5 checksum 选项卡中列出所有 raw data 和 processed data 文件的 'MD5 Checksums'。
  • Step 6. 在您的计算机上创建一个文件夹,其中包含实验的所有 raw data 和 processed data 文件。如果您有多种数据类型,请为每种实验使用一个文件夹。
  • Step 7. 根据说明通过 FTP 将您的数据传输到 GEO。
  • Step 8. FTP 传输完成后,在 Submit to GEO 页面上提交 metadata 文件。

有关所需组件的更多信息:

1.1 Metadata spreadsheet

Download metadata spreadsheet:https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

Metadata 是指有关整体研究、单个样本、所有方法以及对 processed data 和 raw data 文件名的引用的描述性信息。通过填写 metadata template spreadsheet 的所有字段来提供信息。spreadsheet 中提供了有关每个字段内容的指南。

提供足够详细的信息,以便用户可以从 GEO 记录中大致了解研究和样本。请拼写出缩略语。为每种数据类型提交单独的 metadata spreadsheet。

您是否已经向 SRA 提交了 raw data,现在想要提交给 GEO?
如果您已经在 SRA 中拥有 raw data,则无需再次将其提交给 GEO。我们只需要 processed data 和专门的 metadata 文件即可创建 GEO 记录并将其链接到您之前提交给 SRA 的 raw data 记录。

Download metadata spreadsheet with SRA accessions:https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template_with_sra_accessions.xlsx

您需要为所有已提交给 SRA 的 raw data 样本输入 PRJNA、SAMN 和 SRX 或 SRR。您可以在提交门户页面(https://submit.ncbi.nlm.nih.gov/subs/)上获取您的 SUB ID 的信息。

1.2 Processed data files

GEO 要求提交者保存支持其研究结果的 processed data。processed data 应具有定量组件,例如基因丰度或其他 count 数据。请不要提交比对文件(例如 BAM、SAM、BED)作为 processed data,因为这些被视为中间文件并且不包含定量组件。当标准比对是唯一可用的 processed data 时,请写信给 GEO 询问您的数据是否适合提交给 GEO。

处理的数据格式和内容将取决于数据类型:RNA-seq 处理的数据可以包括感兴趣特征(protein-coding genes、lncRNA、miRNA、circRNA 等)的测序 reads 的原始和/或归一化 counts(FPKM、TPM 等)。

ChIP-Seq 和 ATAC-seq 处理的数据可以包括带有定量数据的 peak 文件、tag density 文件等。常见格式包括 WIG、bigWig、bedGraph。请将文件保留为原始格式,并且不要将峰值数据粘贴到 Excel 中。

甲基化数据通常以平均 beta 值的形式提供。

processed data 指南:

  • Processed data 可以格式化为 matrix table 或每个样本的单独文件。
  • 如果所有样品的 processed data 都以 matrix table 形式提交,则列标题应与 metadata spreadsheet 的 SAMPLES 部分中列出的每个样品的文库名称相匹配。
  • 提供包含所有特征(例如基因)和所有样本值的完整数据。不要提交被识别为差异表达的基因列表。
  • 处理后的数据文件中的特征(例如基因、转录本)应可使用公共登录号或染色体坐标进行追踪。所使用的参考基因组(例如,hg19、mm9、GCF_000001405.13)应在 metadata spreadsheet 中提供。
  • 如果您提供 WIG、bedGraph、GFF 或 GTF 文件,请参阅 UCSC 文件格式常见问题解答以了解格式要求。
1.3 Raw data files

Raw data 是 GEO 提交的必需部分。raw data 文件应该是包含测序仪器生成的 reads 和质量分数的原始文件。SRA 可能无法正确处理已编辑的文件。

提交给 GEO 的高通量测序研究的 raw data 将被转发给 SRA。

Raw data 可以直接提交给 SRA(https://submit.ncbi.nlm.nih.gov/about/sra/)。您收到 SRA accessions 后,请参阅上面的说明和本案例的具体模板。请将 metadata 和处理后的数据提交给 GEO。

如果您的原始数据文件超过 2 TB,请将其直接提交给 SRA。您收到 SRA accessions 后,请参阅上面的说明和本案例的具体模板。请将 metadata 和 processed data 提交给 GEO。

如果一个文库的 R1 和 R2 文件超过 600 GB,请将它们拆分为较小的文件,以便高效加载。大于 600GB 的 R1/R2 文件对将延迟加载。

Raw data 文件格式:可接受的文件格式包括 FASTQ 以及 SRA File Format Guide(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/)中描述的其他格式。不符合支持的格式要求的文件将从 GEO 的系统中删除。

Raw data 文件名不应包含空格或特殊字符,例如:/、&、#、% 或任何非 ASCII 字符。所有 Raw data 文件必须具有唯一的名称。

Barcode/Multiplexed Data: 对于 bulk RNA-seq 研究,GEO 要求对 raw data 文件进行 demultiplexed,以便每个带条形码的样本最终都有一个专用的 run 文件。大多数单细胞测序研究应与 multiplexed raw data 文件一起提交(例如 10x Genomics、Drop-Seq、InDrops)。

Paired-end Experiments: GEO 通常期望每次运行 2 个文件(当序列和质量包含在单独的文件中时,每次运行 3 或 4 个文件)。

MD5 Checksums: GEO 建议提交者为其 raw data 文件提供 MD5 checksums。checksums 用于验证文件完整性。checksums 可以使用以下方法计算:

  • Unix: md5sum <file>
  • OS X: md5 <file>
  • Windows: Application required. Many are available for free download.

2 数据文件压缩(Data File Compression)

  • 可以压缩单个文件以加快传输速度,但这不是必需的。
    • 可接受的压缩格式为 gzip 和 bzip2(即以 .gz 或 .bz2 扩展名结尾的文件)。
    • 切勿压缩二进制文件(例如 BAM、bigWig、bigBed、HDF5)。
    • 请勿上传 ZIP 存档(扩展名为 .zip 的文件)。带有 fastq 文件的 Zip 存档通常会损坏,并且会延迟提交处理。
  • 不要提交 tar 存档中的原始数据文件。GEO 必须能够轻松访问用于质量控制目的的原始数据文件。
    • 例外:您可以提交由 Nanopore 仪器生成的原始数据的名为 fast5 的碱基文件的 tar.gz 存档。

3 单细胞研究(Single-cell studies)

单细胞数据提交需要 raw data 和 processed data。GEO 期待单细胞研究的 raw data 以 fastq 格式提交。fastq 文件是 10X Genomics 研究的首选,因此可以以 SRA 格式正确存档。

单细胞数据应进行 multiplexed,以便每个 GEO sample record (GSM) 代表许多单个细胞。如果您的数据尚未 multiplexed,并且每个细胞都有单独的原始数据文件,请发送电子邮件至 GEO 以获取提交指导。

单细胞研究的 Processed data 应该是细胞水平的数据。文件可以作为 Cell Ranger 软件输出文件(barcodes.tsv、features.tsv、matrix.mtx)、H5 或 HDF5 存档、或 RDS 对象提交。单细胞 TCR 和 BCR 样品的 Processed data 应包括 contig 注释和细胞条形码信息。

如果您已使用 Cell Ranger aggr pipeline 并且要提交 H5/HDF5 存档,则必须提交 aggregation.csv 文件。

提交多组学类型的研究(ADT、HTO、TCR、BCR、GDO、CMO、LMO)并使用 10X Genomics 方案和软件时,您必须提交 feature_reference.csv 文件,以便正确解释数据。在 metadata 电子表格的 SAMPLES 部分的单独行中列出不同的 *omics 文库:

  • sample1_GEX
  • sample1_TCR
  • sample1_ADT
  • sample1_HTO

如果 feature_reference.csv 文件不可用,请提交名为 “feature_README.txt”(https://www.ncbi.nlm.nih.gov/geo/info/examples/feature_README.txt) 的补充文件,其中包含适用于所包含示例的以下信息:

idnamereadpattern sequencefeature_typemultiplexed_sampletarget_gene_idtarget_gene_namemhc_allele
ADT_1TotalSeq-A0106 anti-mouse CD11cR25P(BC)GTTATGGACGCTTGCAntibody Capture


HTO_1TotalSeq-A0301 anti-mouse Hashtag 1R25P(BC)ACCCACCAGTAAGACMultiplexing Captureunimmunized mouse 1

GDO_1GF1B_ch4:132977695-132977714R2GCATAGCTCTTTAAAC(BC)TTTGGCAGGGCGTCCCATCCCRISPR Guide CaptureENSG00000165702GFI1B

4 组织您的提交(Organizing your submission)

  • 如果您有一个数据集,请将所有数据文件放在一个文件夹中,并指定一个有意义的名称(例如 geo_sub_RNAseq)。
  • 如果您有多种数据集,请为每种数据集使用单独的文件夹(例如 RNAseq、ChIPseq、HiC)。
  • 不要在数据集文件夹中使用子文件夹。
  • 所有文件必须具有唯一的名称。

以下是文件夹结构的示例:

5 上传您的提交内容(Uploading your submission)

提交新的高通量测序 submission:

为正在进行的 submission 提交附加或替换文件:

6 一般信息(General Information)

6.1 数据规定、标准、管理

数据规定和标准:

GEO sequence submission 程序旨在鼓励提供 MINSEQE元素:https://www.fged.org/projects/minseqe/

  • 详细描述所调查的生物样本及其所经历的程序
  • 用于生成和处理数据的协议的详细描述
  • 相关手稿中的结论所基于的最终处理(或摘要)数据
  • 包含测序 reads 和质量评分的原始 raw data 文件,将上传到 NCBI 的 Sequence Read Archive (SRA) 数据库。

数据管理:

所有标准 GEO 管理和处理程序均适用于 sequence submission。这些包括:

  • 为研究颁发唯一且稳定的 GEO accession;这些 accessions 可以在手稿中引用
  • GEO accession 通常会在提交完成后 5 个工作日内发出
  • 数据在发布之前可以保密
  • 审阅者可以匿名访问私人记录
  • 提交者可以随时更新他们的记录

FAQ 中提供了有关这些方面的更多信息https://www.ncbi.nlm.nih.gov/geo/info/faq.html

6.2 GEO 处理的序列提交类别

GEO 接受:

有关定量基因表达、基因调控、表观遗传学或其他功能基因组研究的研究。

示例包括:

  • mRNA profiling, RNA-seq
  • small RNA profiling, miRNA-seq
  • ChIP-Seq
  • HiC-seq
  • methyl-seq, bisulfite-seq
  • single-cell RNA-seq
  • CITE-seq
  • Xenium

如果您对 GEO 是否可以接受您的数据类型有疑问,请发送电子邮件至 GEO(geo@ncbi.nlm.nih.gov)。

GEO 不接受:

  • 需要访问受限的人类数据(提交给 dbGaP 和 controlled access SRA)
  • 转录本组装(直接提交至 SRA 和 Transcriptome Shotgun Assembly Database)
  • 全基因组测序(直接提交至 SRA 和 WGS)
  • 宏基因组测序(直接提交给 SRA)
  • 重测序、人类变异或拷贝数项目(直接提交给 SRA 和相应的 NCBI variation resource)
  • 调查测序,全外显子组(直接提交给 SRA)
  • 质谱分析(直接提交至 EBI 的 PRIDE resource)

--------------- 结束 ---------------

注:本文为个人学习笔记,仅供大家参考学习,不得用于任何商业目的。如有侵权,请联系作者删除。

往期推荐

文献阅读合集:神经生物学 | 生物信息学 | 单细胞和空间组

生信学习合集:单细胞和空间组 | 机器学习和深度学习

其他合集:R 语言 | 数据库 | 实用工具 | 杂谈

TigerZ 生信宝库