Closed ixxmu closed 1 year ago
通常我们在挖掘 TCGA 数据库的时候,是不是经常遇到正常样本非常少甚至没有的情况!很影响我们分析!这个时候我们就需要想办法搞点正常组织样本量啦,既然 TCGA 数据库没有,我们就从其他数据库借一点过来!向大家强推 GTEx(Genotype-Tissue Expression)数据库,因为 GTEx 涵盖了多个器官和组织中的大量正常组织样本数据。让我来介绍一下!
GTEx 官网:https://www.gtexportal.org/
这是它的官网界面:
GTEx 项目,全称 Genotype-Tissue Expression(基因型-组织表达),主要由美国 NIH(国立卫生研究院)的公共基金计划连续资助了 10 年(2010-2019)。GTEx 项目是用来研究人类不同组织的特异性基因表达和调节的。GTEx 项目最终的数据库(第八版,V8),包括来自于 838 位生前健康的人类捐献者的 DNA 数据(包含 WGS 和 WES);17382 份 RNA-seq 数据,其来自于近 1000 个人类个体,涵盖 54 个不同组织器官部位(目前世界唯一能收集这么全的健康人体组织样本);以及 2 个来自捐献者血液和皮肤的细胞系。
该项目创建了 GTEx Portal(https://gtexportal.org/home/),该平台提供开放获取的数据,包括基因表达、QTL 及生理组织学图片。
GTEx 项目,也同时建立了自己的生物银行(https://gtexportal.org/home/biobank),包含来自约 960 位生前健康的捐赠者的组织标本的,包括肺脏、脑、胰腺、皮肤等等。如果需要,还可以申请获取留存的生物样本。
点击主页下方的Biobank
处的Access Biospecimens
即可进入。
GTEx 的主要目标之一是提供一个资源,使科学家能够深入了解基因在不同组织中的表达模式。
我们可以接触这些数据进行多种研究,比如:
那我们就来看看,这么有用的东西,到底该怎么获得吧!
想要获取数据,我们可以点击Download
下的Open Access Data
,即可进入下载页面!
其实我们一般也不会用这种方式,大家可以去 UCSC Xena(http://xena.ucsc.edu/),更方便哟!咱们后期会介绍!不行!我想在这里先展示一下,我甚至觉得下面的大家都不用看了!(当然也不是,UCSC Xena 里只有部分数据,但是它真的好用!)
看!UCSC Xena 真的很好!咱们后面一定唠唠它!
回归正题!点击Download
下的Open Access Data
,进入下载页面!
我们可以看到,左侧展示了不同的分析版本,理论上肯定都可以用哈,但是推荐使用 V8 和 V9。
V9 目前只提供 snRNA-Seq Data 和 Long Read RNASeq Data。
snRNA-Seq Data(单细胞核 RNA 测序)
snRNA-Seq 数据表示对单个细胞核进行 RNA 测序的结果,旨在揭示单个细胞核中基因的表达模式。这种数据对于了解细胞种群中个体细胞的基因表达模式非常有用,它可以揭示不同细胞核之间的基因表达差异,识别细胞亚群,发现新的细胞类型,并探索细胞状态的转变。它对于揭示细胞异质性和动态变化的机制具有重要意义,有助于深入了解发育、疾病和生物学过程。
Long Read Data(长读取 RNA 测序)
Long Read RNASeq 数据是从 88 个 GTEx 样本的组织和细胞系中生成的。这些数据可用于识别较长的转录本和复杂的转录本结构,这对于发现潜在的新转录本、了解转录本变异以及研究剪接变异等方面非常有用。此外,等位基因特异性表达和转录本结构事件的分析可以揭示不同等位基因之间的表达差异和可能的调控机制,为遗传和表观遗传研究提供了新的视角。
我们重点介绍一下 V8 版的数据!请看下图:
红框框告诉我们,V8 数据主要包含:
Annotations(注释文件)
GTEx_Analysis_v8_Annotations_SampleAttributesDS.txt
:这是一个包含样本属性信息的文本文件。其中的每一列都描述了 GTEx 项目中的一个样本属性,例如样本 ID、组织类型、性别、年龄等。为了帮助用户理解这些列的含义,有一个名为GTEx_Analysis_v8_Annotations_SampleAttributesDD.xlsx
的 Excel 文件,其中提供了关于每列的详细数据字典。这将有助于解释每个属性的含义和取值范围。GTEx_Analysis_v8_Annotations_SubjectPhenotypesDS.txt
:类似于第一个文件,这也是一个文本文件,包含受试者表型信息。每一列都描述了 GTEx 项目中一个受试者的表型信息,例如受试者 ID、性别、年龄、健康状态等。同样,为了帮助用户理解这些列的含义,有一个名为GTEx_Analysis_v8_Annotations_SubjectPhenotypesDD.xlsx
的 Excel 文件,提供了关于每列的详细数据字典。上面这两个 .txt 文件都是去识别的、对外开放访问的样本属性信息的文本文件。在这个版本中,可能会删除或替换某些敏感的个人身份信息,以保护受试者的隐私。这种去识别的版本允许研究人员和公众访问这些数据,以进行科学研究和分析。
RNA-Seq Data(RNA-Seq 数据)
这应该是我们最常使用的数据啦!包括 :
GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_tpm.gct.gz
的基因水平 TPM 值得出的中位数表达水平,可以用来分析不同组织中基因表达的中位数差异。还可以分组织进行下载,有 Gene read counts 和 Gene TPMs 两种,直接点开就可以啦,里面有超多数据!
我们随机打开一个看一下:没错!里面就长这个样子!
QTL Data
GTEx 还做了很多的 QTL 分析,包括 Single-Tissue cis-QTL Data,Single-Tissue trans-QTL Data,Multi-Tissue QTL Data,Single Tissue cis-RNA Editing QTL Data 等等。
不了解 QLT 的朋友们可以继续往下看看,了解或者没需求的朋友们,咱们撤!
QTL 分析指的是遗传调控位点(Quantitative Trait Loci,QTL)与表型特征之间的关联分析。在这种分析中,研究人员试图找到基因组中与某个表型特征(如基因表达水平、蛋白质表达量等)相关的遗传变异位点。这些位点可以是单核苷酸多态性(SNP)等遗传变异,它们可能对于控制特定表型的差异具有影响。
我们简单介绍一下这几种 QTL 分析。
Single-Tissue cis-QTL Data(单组织cis-QTL数据):关注在同一组织中的基因型与目标基因的表达之间的关联。具体而言,它们寻找与目标基因在同一染色体上的位点之间的遗传关联,这些位点可能对目标基因的表达水平产生影响。
Fine-Mapping cis-eQTL Data(精细定位cis-eQTL数据):是对 cis-QTL 的更精细的分析,着重于确定哪些具体的遗传变异位点与目标基因的表达之间存在关联。这有助于更准确地确定可能的调控元件和作用机制。
Single-Tissue trans-QTL Data(单组织trans-QTL数据):
探究在同一组织中,基因型与不同染色体上的其他基因表达之间的关联。这种关联可以跨越不同染色体,但在同一组织内寻找。
Cell Type Interaction QTL Data(细胞类型相互作用QTL数据):探究不同细胞类型中的基因表达和基因型之间的关联。它们有助于了解细胞类型特异性的基因调控机制和遗传影响。
Sex-Biased Genes and sb-eQTL Data(性别偏倚基因和性别偏倚eQTL数据):关注在性别间表达差异显著的基因,以及这些基因的表达与基因型之间的关系。它们有助于了解性别在基因调控中的角色。
Multi-Tissue QTL Data(多组织QTL数据):考虑了在多个不同组织中基因型与基因表达之间的关联。它们有助于揭示跨组织的遗传调控模式。
Single Tissue cis-RNA Editing QTL Data(单组织cis-RNA编辑QTL数据):关注在同一组织中,RNA 编辑事件与基因型以及基因表达之间的关联。RNA 编辑是基因表达调控的一种机制。
后面还有 Haplotype Expression Matrices(单体型表达矩阵,不同单体型在每个样本中的表达情况)、Outlier Calls(异常值 Calls,特定基因表达模式中的异常情况)等数据,太冷门了!
最后总结一下!这个 GTEx 数据库的用处呢,主要是可以帮助我们研究正常人不同组织之间的基因表达的区别。不过我觉得最最重要的呀,是和 TCGA 联合使用(我明天就介绍!)。由于 TCGA 重点收集的还是癌症组织的数据,对于其正常的数据收集的相对来说较少,由于正常样本少所以对于差异表达的结果可能就不是很准确。这个时候如果我们把 GTEx 的数据纳入进来,这样分析的结果就可能会更准确一些啦!
这上面有正常的单细胞么?
目前只有8种,估计正在逐步添加,有食管的。 https://gtexportal.org/home/singleCellOverviewPage
https://mp.weixin.qq.com/s/zvZuJO_n1jmZrGF0TV6UoA