ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
124 stars 31 forks source link

数据库介绍 | ZEBRA:小鼠和人脑单细胞分辨率下的层级整合基因表达图谱 #5968

Closed ixxmu closed 6 days ago

ixxmu commented 6 days ago

https://mp.weixin.qq.com/s/YOKdws50LmqbczCNW58-eQ

ixxmu commented 6 days ago

数据库介绍 | ZEBRA:小鼠和人脑单细胞分辨率下的层级整合基因表达图谱 by BioJournal Link

Basic Information

  • 英文标题:ZEBRA: a hierarchically integrated gene expression atlas of the murine and human brain at single-cell resolution
  • 中文标题:ZEBRA:小鼠和人脑单细胞分辨率下的层级整合基因表达图谱
  • 发表日期:06 November 2023
  • 文章类型:Na
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Matthias Flotho | Fabian Kern
  • 文章链接:https://academic.oup.com/nar/article/52/D1/D1089/7369788

Abstract

  1. 神经退行性疾病的分子原因和机制仍然知之甚少。
  2. 越来越多的单细胞研究表明,各种神经元、胶质和免疫细胞亚型影响哺乳动物中枢神经系统,在许多与年龄相关的疾病中发挥作用。
  3. 将这些转录组证据整合成一个全面且可重复的框架面临着若干计算挑战。
  4. 在这里,我们引入了 ZEBRA,这是一个大型的单细胞和单核 RNA 测序数据库。
  5. ZEBRA 整合并标准化了来自 33 项研究中的基因表达和元数据,涵盖了从 39 个脑区采集的 420 万个人类和小鼠脑细胞。
  6. 它包含了阿尔茨海默病、帕金森病和多发性硬化等神经退行性疾病患者的样本,以及相关的小鼠模型样本。
  7. 我们采用了 scVI,这是一种深度概率自动编码器模型,来整合样本,并精心整理了细胞和样本元数据以供下游分析。
  8. ZEBRA 可以探索和比较不同样本条件和脑区之间的细胞类型特异性和疾病特异性标记,进行细胞组成分析,以及基因特征映射。
  9. 我们的综合分子数据库有助于产生数据驱动的假设,增强了我们对哺乳动物大脑在衰老和疾病过程中的功能的理解。
  10. 数据集以及交互式数据库均可在 https://www.ccb.uni-saarland.de/zebra 免费获取。

Introduction

Para_01
  1. 随着西方社会人口结构的变化导致老年人口不断增长,神经退行性疾病因其与衰老过程的直接关联而受到越来越多的关注,这些疾病往往随着年龄的增长而变得更加严重。
  2. 这些疾病的进展已与多种遗传起源、单核苷酸多态性(SNPs)以及细胞类型群体的紊乱联系起来。
  3. 然而,尽管取得了相当大的进展和发现,但疾病进展的主要分子机制仍然在很大程度上未知。
  4. 即使有可能在精细的表达水平上对细胞类型进行分类和表型分析,但在全面理解患者层面的机制和依赖关系方面仍存在困难。
Para_02
  1. 单细胞RNA测序(scRNA-seq)和单核RNA测序(snRNA-seq)技术的进步已经能够分别在细胞水平和核水平捕获基因表达谱。
  2. 这为我们深入了解与各种病理生理状况及老化过程相关的细胞和分子途径提供了重要见解。
  3. 尽管可获得的数据集和研究数量呈指数级增长,但缺乏标准化的注释和细胞标记命名规则构成了挑战。
  4. 更具体地说,到目前为止生成的数据集在两个方面仍存在偏见。
  5. 首先,样本区域的选择,因为迄今为止主要从鼠类和人类供体中采样了皮质区域。
  6. 只有少数研究涵盖了来自同一供体的多个脑区。
  7. 其次,测序技术的选择,在人类样本中主要是单核测序,而在鼠类样本中使用的是单细胞测序。
  8. 为了反映这一趋势,我们相应地为小鼠创建了scRNA-seq,并为人脑构建了snRNA-seq图谱。
Para_03
  1. 虽然现有的针对脑组织和神经退行性疾病定制的数据库,如Allen脑图谱和scREAD提供了基于大量单细胞RNA测序样本的宝贵信息,但它们存在一定的局限性。
  2. Allen脑图谱仅包含Allen研究所发表的研究成果,涉及相关患者队列;而scREAD缺乏跨多个研究的数据矩阵整合。
  3. 与DISCO、HUSCH或HTCA等涵盖多种组织的数据库不同,我们的数据库专注于脑部的神经退化和衰老,对较少采样的细胞类型和脑区域进行了更为详细的覆盖。
  4. 我们的数据库包含了33项关于与年龄相关的神经退行性疾病的测序样本(补充表S2)。
  5. 在较大的数据库中,脑区的区别往往被忽略或者比我们的注释更加粗略。
  6. 我们最近的研究表明,哺乳动物大脑功能和结构多样的区域具有独特的并且随年龄变化的转录组,这激发了我们进一步理解局部微环境中的分子和细胞表型之间联系的方法。
Para_04
  1. 所有纳入的研究均采用了基于液滴的10x Chromium协议来构建文库,利用了使用该特定技术公开可用的数据集的高度丰富性。
  2. 通过专注于单一平台,我们预计会减少技术伪影。
  3. 这里只考虑提供了原始计数或SoupX校正计数的研究。
  4. 为了建立一个共同的基础,我们应用了去除重复细胞和过滤操作,并精心选择了阈值以确保所包含细胞和核的质量。
  5. 为了有效地整合数百个样本,我们采用了生成式的深度概率自动编码器模型scVI。
  6. 通过训练过程,我们根据基因计数的后验分布生成了一个潜在空间表示。
  7. 我们仅使用这个潜在空间表示来进行聚类和可视化。
Para_05
  1. ZEBRA是首个大规模数据库,它能够对来自不同研究的单细胞RNA测序/单核RNA测序样本进行全面概览和基于基因的分析,同时保留了细胞类型和区域注释的细节。
  2. 此外,ZEBRA是一个宝贵的资源,提供了易于访问的基因分析功能,适用于衰老和神经退行性疾病的研究背景。
  3. 我们实现了在大脑皮层以及非皮层区域的稳健分析。
  4. 最后,我们的人类皮层数据集是同类中的首个,整合并提供了几乎贯穿人类全生命周期的大脑细胞转录组数据,即从早期童年到晚年的成人阶段。

Materials and methods

Data collection

数据收集

Para_06
  1. 数据来源于基因表达综合数据库(GEO)、Synapse和UCSC细胞浏览器。
  2. 我们的数据库仅使用了计数和SoupX校正后的计数矩阵。
  3. 所考虑的样本均采用基于液滴的10x Chromium 3′基因表达技术生成。
  4. 特别地,我们只纳入了人类单核和小鼠单细胞RNA测序研究。
  5. 由于胚胎发育和癌症进展研究会导致极高的转录组变异性,因此明确排除了这些相关研究。
  6. 同样排除了不允许从细胞到供体进行唯一映射的人类数据研究。
  7. 此外,仅考虑使用GRCh38人类基因组或GRCm38小鼠基因组作为参考的研究。
  8. 元数据经过人工整理、标准化和验证。
  9. 细胞类型注释是手动完成的,即相似的细胞类型被映射到一起,并去除了冗余。
  10. 随后,我们重新注释了细胞类型以填补缺失或纠正注释。
  11. 我们提供了关于人类样本年龄信息的连续和分类尺度,以及小鼠样本的分类信息。
  12. 性别总结为男性(M)、女性(F)、未定义和混合。
  13. ‘混合’描述了将多种性别合并在一起的小鼠样本。
  14. 最后,我们将关于医疗条件的信息归纳为超组,分别合并了MS和AD亚型。
  15. 处理过、重新注释和整合的数据可以从服务器下载。
  16. 原始的原始和标准化计数也提供下载。
  17. 由于敏感患者数据受到访问限制的数据集已从可下载的数据文件中移除。

Preprocessing

预处理

Para_07
  1. 我们使用了 Scanpy 软件包(版本 1.9.2,搭配 Anndata 版本 0.8.0)作为表达数据预处理的封装。
  2. 对于每项研究,我们应用了 Scrublet(版本 0.2.3)来检测并移除可能存在的双细胞。
  3. 通过将等效基因相互映射并将观测值附加到单一联合表达矩阵上,不同的数据集被合并。
  4. 基因异构体通过单一基因标签进行汇总,即所有异构体的计数总和归结为一个单一基因标签。
  5. 为了使一个基因被纳入图谱,它必须至少出现在一半的数据集中。
  6. 基于这个基因集,我们也创建并提供了包含异构体的计数矩阵,但不将其纳入我们的下游分析。
  7. 缺失的基因条目被视为 NaN,并且没有被纳入差异基因计算或整合之中。
  8. 如果细胞包含超过 5% 的线粒体计数、每个细胞超过 7500 个基因或少于 200 个基因,则被过滤掉。
  9. 最后,被少于 3 个细胞检测到的基因从图谱中被移除。
  10. 然后,我们根据 Scanpy 工作流程使用 sc.pp.normalize_total 和 sc.pp.log1p 函数对单细胞和单核计数矩阵进行了标准化和缩放处理。

Integration

集成

Para_08
  1. ScVI(版本0.17.3,搭配PyTorch版本1.12.1)被用于在NVIDIA A100 GPU机器上整合预处理后的计数。
  2. 作为输入,计数矩阵被缩减至所有数据集中均存在的基因。
  3. 这使得能够计算数据库中尽可能多的基因的标准化scVI计数。
  4. ScVI采用默认参数和最多1000个周期执行。
  5. 一个周期定义为模型恰好在整个训练数据上训练一次的循环。
  6. 在每个周期中,权重更新直至达到最大周期数或模型性能没有显著变化。
  7. 对于所有子数据集,在达到1000个训练周期之前,训练均已收敛。
  8. 整合工作是在按脑区(皮层和非皮层)以及物种划分的子数据集上进行的。

Curated cell-type annotation

精心策划的细胞类型注释

Para_09
  1. 我们将现有的注释总结为两级细胞类型层次结构,使收集的研究中的细胞类型注释协调一致。
  2. 然后,我们根据整合的表示重新注释了皮层细胞类型。
  3. 在这里,我们使用 RAPIDS cuGraph Leiden 算法实现和 RAPIDS cuml umap(版本 22.06.01)对细胞进行聚类,以识别和定义细胞类型聚类。
  4. 聚类名称来源于检查每个聚类中存在的主要原始细胞类型以及几个纳入研究中报告的标记基因。

Differentially expressed gene (DEG) computation

差异表达基因(DEG)计算

Para_10
  1. 为了计算差异表达基因(DEG)统计量,我们使用了聚合伪批量样本上的edgeR(版本3.36.0)生物导体包。
  2. 我们通过按‘供体’、‘区域2’和‘子细胞类型’标签划分细胞后汇总计数来进行聚合。
  3. 伪批量样本根据edgeR教程使用glmQLFTest函数进行处理和标准化。
  4. 每当我们计算来自不同研究之间的差异表达基因或标记时,我们都会将‘研究’信息作为模型设计矩阵中的潜在变量。
  5. 我们提供了针对每个簇与其他所有细胞比较的细胞类型标记,以及所包含疾病的潜在标记基因。
  6. 疾病标记是分别针对每种细胞类型计算的,即条件是在相同细胞类型内进行比较,而不是跨多个细胞类型。
  7. 此外,我们还提供了同一物种内各区域间所有细胞类型的配对差异表达基因(DEG)的单独视图。
  8. 含有某些基因NaN条目的细胞表达向量未用于计算差异表达基因。
  9. 我们使用stats R包(版本4.1.3)调整条件标记的p值,其中p.adjust方法设置为使用Benjamini-Hochberg校正假发现率(‘BH’程序)。
  10. 所有计算出的标记和差异表达基因都可以从服务器下载

Database implementation

数据库实现

Para_11
  1. 我们实现了在线数据库,用户可以下载图谱数据、探索数据集组成以及可视化细胞间的基因表达。
  2. 该数据库使用最新版本的 Python(v3.11)和 Django(v4.2)框架,在可复现的 Docker 环境中实现。
  3. 前端采用 Bootstrap(v5.2)、DataTables(v1.13)和 Plotly.js(v2.25)绘图库。
  4. 该数据库免费提供访问,地址为:https://www.ccb.uni-saarland.de/zebra/

Results

Overview

概述

Para_12
  1. 我们的数据库包含了33项研究,涉及2,743,355个人类细胞和1,414,605个鼠类细胞。
  2. 我们采用层级方法根据样本区域来组织数据(图1)。
  3. 人类数据集分为1,930,270个皮质核和813,085个非皮质核。
  4. 鼠类皮质样本包含1,000,166个细胞,而来自皮质外的细胞则有414,439个。
  5. 不同层次的数据整合显示,在分离皮质和非皮质样本时,能够获得最佳的整合结果。
  6. 有时采样区域只在一个单独的研究中被捕捉到。
  7. 此外,不同位置之间的细胞类型重叠通常很小。
  8. 总的来说,收集到的研究在多个层面上具有异质性:测序深度不同,细胞类型注释不一致,样本位置也有所变化。
  • 图 1. ZEBRA 脑图谱总共包含了 410 万个人类和小鼠的脑细胞及细胞核。这些被分为两个较大的皮层数据集和两个较小的非皮层数据集。对于每个数据集,细胞和细胞核转录组经过预处理,并嵌入到 UMAP 中,按细胞类型谱系着色。主要的细胞群体包括胶质细胞(绿色)、神经元细胞(红色)和血管细胞(蓝色)。每个主要数据集中的细胞或细胞核数量显示在每个子图中。

Data set description

数据集描述

Para_13
  1. 我们去除了冗余,并通过将原始细胞类型合并为独特的两级标签来精心整理这些细胞类型。
  2. 为此,我们将所有细胞重新注释为更粗略的超细胞类型和更精细的子细胞类型,以提高所有研究之间的一致性。
  3. 此外,我们统一了批次的注释、采样区域、年龄、性别以及医疗状况。
  4. 收集的人类样本包括多种不同疾病的捐赠者(表1)。
  5. 例如,我们的图谱包含了来自196位不同健康对照捐赠者的样本和88位阿尔茨海默病患者的样本。
  6. 我们观察到男性样本和细胞的数量略多于女性。
  7. 在小鼠图谱中,我们报告的主要是野生型(WT)样本,共有204个独特的捐赠者标签,其中82个标签对应混合性别,意味着至少2个个体被合并在一起。
  8. 综合表示法在分配的细胞类型与预测的莱顿聚类之间存在大量重叠。
  9. 此外,我们还手动整理了皮层和非皮层样本的细胞类型注释。
  10. 我们改进的注释旨在保留所提供的聚类标签的粒度,同时改善细胞类型的分类。
  11. 与皮层样本中良好的整合结果形成对比的是,由于某些脑区仅被单一研究覆盖,因此跨非皮层区域的模型训练过程具有挑战性。
  12. 为了进一步探究这些由区域驱动的差异,我们分别整合了存在于多个区域中的每个超细胞类型的样本。
  13. 随后的结果显示,细胞确实根据它们预期的子细胞类型进行聚类。
  14. 因此,通过预先选择相似细胞群体的同时避免去除从转录上不同的脑区组合中获得的宝贵生物信号,可以最小化由脑区域驱动的影响,这使得跨区域样本的整合变得更加容易。
  • 表1. 不同的医疗条件和协变量下的捐赠者数量有所不同
SpeciesCondition#Donors#CellsM/F/mixed/unknown
HumanCT1961301k128/69/0/1

AD88529k48/40/0/0

ASD21148k17/4/0/0

COVID-19833k7/1/0/0

FTD27251k11/16/0/0

HD1287k9/3/0/0

Influenza15k1/0/0/0

LBD461k2/2/0/0

MS30159k24/8/0/1

PD6123k4/2/0/0

Suicide1743k17/0/0/0
MouseWT2041361k61/48/82/15

EAE323k0/0/0/3

MCAO326k0/0/0/3

MA24k0/2/0/0

hGFAP-GFP11k0/0/1/0

Table Description:

  • Human samples were collected from various conditions, including Alzheimer's disease (AD), autism spectrum disorder (ASD), COVID-19, frontotemporal dementia (FTD), Huntington’s disease (HD), influenza, Lewy body dementia (LBD), multiple sclerosis (MS), Parkinson’s disease (PD), and suicide (depressive disorder).
  • Mouse models include wild-type (WT), experimental autoimmune encephalomyelitis (EAE), middle cerebral artery occlusion (MCAO), microglia absence (MA), and fluorescent astrocytes (hGFAP-GFP).
  • Sex information is labeled for human donors but more frequently mixed or unlabeled for mouse models.

Database functionality

数据库功能

Para_14
  1. ZEBRA是一个交互式数据库,它提供了人类和小鼠大脑在衰老和神经退行性疾病中的全面跨研究概览。
  2. 它让用户能够访问关键发现,而无需下载完整的数据集。
  3. 每个视图都是根据预计算分析设计来回答一系列问题。
  4. 网页的一个核心功能是可视化四个主要数据集之一的UMAP嵌入,基于元数据如细胞类型或感兴趣基因的表达。
  5. 所有图表都是交互式的,允许用户进行缩放、下载以及切换类别的可见性。
  6. 此外,可以通过可用的元数据变量对嵌入视图进行切片。
  7. 用户可以通过比较实验因素来分析数据集的组成。
  8. 例如,可以绘制选定条件下各细胞类型的细胞比例,以确保数据集对于特定下游分析是平衡的。
Para_15
  1. 此外,我们提供了数据集中每个基因的差异基因表达分析结果。
  2. 该数据库允许按类别(如细胞类型、原始数据集或性别)可视化单细胞和单核水平上的平均基因表达。
  3. 嵌入信息和差异基因(DEG)分析可用于方便地查找标记基因,用于注释新数据集。
  4. 差异基因可以根据样本数量轻松过滤,例如,在每种条件下,该基因必须至少出现在n个样本中,以此来确保统计严格性。
  5. 此外,ZEBRA提供了一种简便的方法来比较人和小鼠脑区之间的同源基因。
  6. 集成的数据集可以作为H5AD对象下载,以便与Scanpy一起使用。
  7. 最后,ZEBRA提供了主要脑区之间以及同一区域内的各细胞类型之间的成对差异基因。
  8. 这使得能够详细查看不同脑区中相似细胞类型的转录组如何不同,同时也揭示了相关细胞谱系之间特有的差异基因。

Exemplified use-cases

示例使用案例


Discussion

Para_17
  1. 关于哺乳动物大脑的自由可用的单细胞RNA测序(scRNA-seq)和单核RNA测序(snRNA-seq)研究的范围持续扩大。
  2. 然而,缺乏通用的命名体系以及对已发表数据的最小但标准化的要求仍然是该领域面临的挑战。
  3. 因此,整合和比较所有可获得的信息变得困难,需要大量的手动整理。
  4. 此外,现有处理和存储scRNA-seq数据的各种框架(例如loompy:http://linnarssonlab.org/loompy,SeuratDisk:https://mojaveazure.github.io/seurat-disk,scvi-tools)之间的兼容性较差,并且经常出现破坏性的更改,这阻碍了非计算研究专家进行跨研究比较或可重复性分析的能力。
Para_18
  1. 在这项研究中,我们引入了 ZEBRA,这是一个数据库,提供了对 33 项手动整理和整合的单细胞 RNA 测序(scRNA-seq)和单核 RNA 测序(snRNA-seq)研究的访问。
  2. 为此,我们在多个层面上结合了细胞和核转录组,以创建我们数据库的分层设计。
  3. 认识到跨物种整合很困难,因为基因组注释和基因功能存在差异,以及考虑到单细胞测序更常用于小鼠而非人类,而单核测序则相反,因此按物种划分是必要的,以减轻大量技术批次效应校正的需求。
  4. 此外,我们观察到对于人类和小鼠而言,每个脑区可用样本数量严重偏向于皮质,对此我们可以找出多种原因。
  5. 这种方法显示出最佳的整合效果,因为它平衡了统计能力与敏感性,能够在覆盖良好的皮质和覆盖较少的非皮质区域中检测出明显的细胞类型差异在基因表达上的表现。
  6. 因此,我们的结果表明未来的努力应该考虑在一个个体内跨越多个区域采样,以增强计算整合的效果。
Para_19
  1. 通过聚类整合的人类和小鼠皮层样本,我们观察到计算得出的聚类与原始细胞类型注释之间存在显著重叠,这种重叠以多数投票的方式体现。
  2. ZEBRA中重新注释的细胞提供了更一致的细胞类型标记。
  3. 例如,我们可以观察到少突胶质细胞前体(OPCs)和少突胶质细胞在不同研究中的先前标记存在不一致性。
  4. ZEBRA为人脑标志基因提供了一个可靠的参考,因为我们确认了大多数已注释的细胞,并重新标记了被错误标记的细胞。
  5. 此外,我们的发现突出了基于液滴的单细胞RNA测序(scRNA-seq)和空间RNA测序(snRNA-seq)协议的一般可重复性,因为我们成功整合了来自19项不同研究的人类皮层细胞。
  6. 所呈现的数据揭示了不同脑区域之间的异质性,强调了空间位置作为推动细胞多样性关键因素的重要性。
  7. 区分批次效应和生物学信号具有挑战性,因为大多数研究只采样大脑的一个单一位置。
  8. 在这里,我们也认识到了单细胞文献中目前报告的组织匀浆化和细胞提取协议的多样性,每种方法都会导致个体偏倚和噪声,这在样本数量较少的情况下尤其难以通过计算方式消除。
  9. 采用共同认可的标准无疑将有助于提高单细胞研究的整体可重复性,特别是在临床和药物开发背景下。
Para_20
  1. 未来的工作可能包括将ZEBRA中的所有原始读段完全重新对齐,以进一步提高整体数据质量,并更好地解析转录本异构体。
  2. 然而,大多数研究使用的3′基因表达技术不均匀地覆盖基因转录本,大部分读段与接近3′非翻译区的区域对齐。
  3. 这使得一致检测剪接事件本质上难以测量。
  4. 替代的全长但更为劳动密集型的平台如Smart-seq2已经建立起来,但其采用速度较慢。
  5. 全面整合全长和3′液滴法计数是另一个计算挑战,如果随着时间推移有更多的全长数据可用,则需要解决这一问题。
  6. 不过,我们通过报告每项研究中可用的原始异构体计数来考虑这种情况。
Para_21
  1. 所提供的数据库为未来的实验提供了新的参考,并指导队列设计,同时也便于进行复杂的计算任务,如细胞类型注释和新型细胞类型预测工具的基准测试。
  2. 如此广泛的数据集汇编使大规模且简便地评估细胞和核转录组成为可能。
  3. 我们希望 ZEBRA 能够成为神经退行性疾病和衰老研究的宝贵资源,促进新型治疗方法的快速发展。

Data availability

Para_22
  1. ZEBRA 可以在 https://www.ccb.uni-saarland.de/zebra 免费获取。

Supplementary data

Para_23
  1. 补充数据可在 NAR 在线获取。