ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
126 stars 32 forks source link

Nat. Methods. | CellRank 2:基于多视图的单细胞细胞命运统一映射 #5151

Closed ixxmu closed 5 months ago

ixxmu commented 5 months ago

https://mp.weixin.qq.com/s/t9zfkyL-sExGqHtNazdgJA

ixxmu commented 5 months ago

Nat. Methods. | CellRank 2:基于多视图的单细胞细胞命运统一映射 by AdvanceBC

2024年6月13日,来自Fabian Theis研究团队的Philipp Weiler、Marius Lange和Michal Klein等人在Nature Methods期刊上发表了一篇题为“CellRank 2: unified fate mapping in multiview single-cell data”的研究文章。文章介绍了一种名为CellRank 2的框架,这是一种用于分析多视图单细胞数据以研究细胞命运的新型工具CellRank 2能够在多种数据模态下统一并可扩展地研究细胞命运,通过结合实验时间点信息和新兴数据模态如代谢标记数据,准确恢复终末状态和命运概率。该框架的应用展示了其在解析人类造血和内胚层发育中的卓越性能,同时揭示了参与胚咽内胚层发育的基因。CellRank 2还能够从代谢标记数据中估算细胞特异的转录和降解速率,应用于肠道类器官系统中,以勾勒分化轨迹并定位调控策略。这项研究的发布为研究细胞命运决策提供了新的思路和工具,展示了其在单细胞分辨率下解析细胞异质性和复杂分化轨迹的潜力。

关键字:轨迹推断、数据模态整合、广义谱聚类

引言

   

单细胞RNA测序技术的迅猛发展使得科学家们能够以前所未有的分辨率和规模揭示细胞异质性。这些技术允许通过表达相似性或RNA速度来模型化细胞状态动态和命运决策,从而重建状态变化的轨迹。然而,现有的轨迹推断方法主要针对快照单细胞RNA测序数据,无法整合实验时间点或利用附加模态的宝贵信息。这些附加模态包括多模态测量、RNA速度和代谢标记数据,而这些信息对于理解细胞状态动态至关重要。

目前,单细胞轨迹推断(TI)方法已经揭示了许多生物学上的洞见,但这些方法通常仅设计用于快照单细胞RNA测序数据,无法适应其他相关信息。例如,现有的方法不能结合实验时间点信息或利用额外的数据模态。尽管一些方法已经开发出来以分析新兴的数据模态,如用于RNA速度的CellRank、用于实验时间点的Waddington最优传输(WOT)和用于代谢标记数据的dynamo,但每种方法仅处理单一模态,忽略了轨迹分析中大量即将出现的多模态信息。

为了克服这些挑战,研究团队提出了一种模块化的框架,称为CellRank 2,以统一和扩展多视图数据的细胞命运分析。CellRank 2通过分解轨迹推断为两部分:模态特定的细胞转变建模和模态无关的轨迹推断,提供了一个分析多视图数据的健壮、模块化框架。这种框架能够利用伪时间、发育潜力、实验时间点和代谢标记等多种数据模态进行复杂的细胞状态变化研究。与之前的工作相比,新框架的模块化设计适用于更多的数据模态,并且速度大幅提升。

CellRank 2的目标是提供一种通用的方法来分析单细胞数据中的细胞命运决策通过结合不同数据模态的信息,CellRank 2能够更准确地恢复细胞的终末状态和命运概率,从而揭示在多种生物系统中的复杂细胞动态。例如,在人类造血和内胚层发育中的应用展示了CellRank 2在恢复终末状态和初始状态方面的卓越性能。通过结合实验时间点内和时间点之间的信息,CellRank 2能够提供更细粒度的状态转换,展示其在多种生物学应用中的广泛潜力。

总之,CellRank 2是一个健壮、模块化且可扩展的框架,能够在多视图单细胞数据中统一研究细胞命运。它不仅克服了现有方法的局限性,还展示了其在解析复杂细胞状态变化和分化轨迹中的卓越性能。研究团队期待未来的工作能够进一步扩展CellRank 2,以适应更多新兴数据模态,并结合干扰数据和因果推断,深入理解分子驱动因素,为科学研究提供更强大的工具。

研究内容

   

这项研究开发了一个模块化的框架CellRank 2,用于分析多视图单细胞数据以研究细胞命运。该框架通过结合不同的数据模态,包括伪时间、发育潜力、实验时间点和代谢标记数据,来提供一个统一且可扩展的解决方案。以下是CellRank 2框架的具体方法和步骤。

首先,在进行轨迹推断之前,需要对单细胞RNA测序数据进行预处理。这包括质控过滤以去除低质量的细胞和低表达的基因,归一化以消除测序深度的影响,高变基因选择以捕捉细胞间的差异,以及主成分分析(PCA)等降维处理以减少计算复杂度。

接下来,CellRank 2通过不同的内核(Kernel)来处理特定数据模态,并估算细胞之间的转变概率。伪时间内核(PseudotimeKernel)基于单细胞RNA测序数据,通过构建最近邻图来估算细胞间的转变概率。具体步骤包括:首先构建基于高变基因表达数据的最近邻图,然后使用已知的伪时间方法(如Diffusion Pseudotime)计算每个细胞的伪时间,最后根据伪时间偏置最近邻图的边,估算细胞间的转变概率。

发育潜力内核(CytoTRACEKernel)利用细胞的发育潜力来估算转变概率。首先,使用CytoTRACE算法计算每个细胞的发育潜力,假设幼稚细胞表达的基因数量更多。然后,基于发育潜力构建一个倾向于更成熟细胞的最近邻图,并估算细胞间的转变概率。

实验时间内核(RealTimeKernel)结合实验时间点的信息来估算细胞间的转变概率。首先,使用Waddington最优传输(WOT)方法计算跨时间点的细胞转变概率,然后基于基因表达相似性计算时间点内的转变概率,最后将跨时间点和时间点内的转变概率结合起来,生成一个综合的转变矩阵。

代谢标记内核(Metabolic Labeling Kernel)通过代谢标记数据来估算细胞特异的转录和降解速率。首先,结合代谢标记和单细胞RNA测序数据,然后使用非线性最小二乘法估算每个细胞和基因的转录和降解速率,最后基于估算的速率构建细胞间的转变概率矩阵。

在模态特定的细胞转变建模完成后,CellRank 2框架的轨迹推断模块负责分析由内核生成的转变矩阵。首先,从模态特定的内核中获取转变概率矩阵,并进行归一化处理,以确保每行和每列的概率和为1。接着,使用广义的马尔可夫链模型来识别细胞的初始状态和终末状态。具体方法包括通过转置转变矩阵来计算初始状态的概率,并通过稳定状态的计算来识别终末状态,使用广义的谱聚类算法来识别不同的细胞群体。

随后,通过马尔可夫链的转变概率计算每个细胞到达每个终末状态的命运概率。这一步骤利用稀疏矩阵的性质加速计算,并使用广义特征值分解技术进行命运概率的计算。最后,结合命运概率和伪时间信息,分析沿不同轨迹的基因表达趋势。具体步骤包括使用广义加性模型拟合基因表达随时间变化的趋势,并通过命运概率与基因表达的相关性分析,识别潜在的调控基因。

CellRank 2框架在多个数据集上的应用展示了其在恢复终末状态、初始状态、估算命运概率以及识别调控基因方面的卓越性能。在人类造血数据集中,CellRank 2准确地恢复了所有已知的终末状态和初始状态。通过使用伪时间内核和发育潜力内核,研究团队能够构建一个偏向更成熟细胞的最近邻图,并精确估算细胞间的转变概率。此外,实验时间内核结合了跨时间点和时间点内的信息,提供了更细粒度的状态转换,展示了其在解析复杂细胞状态变化中的优势。在胚体形成和胚咽内胚层发育的应用中,CellRank 2成功地恢复了所有终末状态,并识别了参与这些发育过程的潜在调控基因。特别是在胚咽内胚层发育的研究中,CellRank 2不仅识别了已知的终末状态,还发现了新的潜在调控基因,揭示了细胞分化过程中基因表达的动态变化。此外,研究团队开发了一种基于代谢标记数据推断转录和降解速率的方法,并将其应用于肠道类器官系统。结果显示,CellRank 2能够准确识别所有终末状态,并且在细胞类型纯度和TSI评分方面显著优于传统方法。这一方法使得研究团队能够从代谢标记数据中推断细胞特异的转录和降解速率,从而更好地理解细胞分化的调控机制。总之,CellRank 2框架通过其模块化设计和多模态数据整合,展示了在多种生物学应用中的广泛潜力,为研究细胞命运决策提供了强大的工具,并揭示了复杂细胞状态变化和分化轨迹中的新洞见。


研究结果

   

模块化框架用于研究状态变化轨迹

   

CellRank 2 模型从多视角单细胞数据中分析细胞状态动态。它可以自动确定初始状态和终末状态,计算命运概率,绘制特定轨迹的基因表达趋势,并识别与谱系相关的基因。其坚固、可扩展和模块化的设计使研究团队能够研究广泛和可扩展的生物学场景。

与 CellRank类似,研究团队采用了一种概率系统描述,其中每个细胞在马尔可夫链中构成一个状态,边表示细胞-细胞转移概率;然而,研究团队现在可以从各种生物学先验中推导这些转移概率。在之前成功的 TI 方法的基础上,研究团队假设细胞沿表型流形逐渐、无记忆地转换。无记忆转换的假设是合理的,因为研究团队对细胞平均行为进行了建模。

为了广泛适用,研究团队将 CellRank 2 分为用于基于多视角单细胞数据计算细胞-细胞转移矩阵的内核和用于分析转移矩阵以识别初始和终末状态、计算命运概率和执行其他下游任务的估计器。CellRank 2 提供了一组不同的内核,这些内核基于基因表达、RNA 速度、伪时间、发育潜力、实验时间点和代谢标记数据推导转移概率(图 1a )。根据数据集和生物学问题,研究团队使用单个内核或将多个内核组合成多视角马尔可夫链。为了对恢复的细胞动力学进行初步的定性概述,研究团队引入了一种基于随机游走的可视化方案。

图1:CellRank 2提供了一个统一的框架,使用马尔可夫链研究单细胞命运决策

对于许多生物过程,起点可以稳健地量化,并且细胞可以按伪时间排序。 研究团队建议通过偏向最近邻图的边向成熟细胞状态来估计细胞-细胞转移;也可以类似地使用发育潜力。CellRank 2 将早期概念推广到任意伪时间和图谱规模数据集,使用 PseudotimeKernel 和 CytoTRACEKernel。通过多个实验时间点,可以忠实地捕捉到初始状态未知或发育时间较长的更复杂系统。为了重建跨时间点和时间点内描述的整体分化动力学,研究团队将经典最优传输(OT),特别是 WOT,与 RealTimeKernel 扩展,以包括时间点内动力学。相反,代谢标签提供了一种实验方法,克服了不同实验时间点的离散性。基于此信息,研究团队开发了一种推断方法,用于量化动力学速率,使研究团队能够推断细胞转变。在接下来的部分中,研究团队将详细介绍每个内核,并通过不同的应用展示方法的多功能性。最后,可以结合各种内核,通过多视角建模得出更完整的细胞动力学图景。

一旦研究团队推断出转移矩阵,研究团队使用一个估计器模块来揭示细胞轨迹,包括初始状态和终末状态、命运概率和谱系相关基因。 关键的是,估计器是视图独立的,因此适用于任何转移矩阵。 为了将这些计算扩展到大型数据集,研究团队假设每个细胞只产生一小部分潜在后代。 这一假设为每个内核生成稀疏转移矩阵,并使 CellRank 2 的命运概率计算速度比 CellRank 快 30 倍。

模块化和稳健的设计使 CellRank 2 成为多视角单细胞数据中状态动态概率分析的灵活框架;它能够快速调整计算工作流程以适应新兴数据模式,包括谱系追踪和时空数据,支持使用内核的新数据模式以及使用估计器的新分析。

克服RNA速度的局限性

   

尽管伪时间可以准确恢复,RNA速度在稳态人类造血过程中由于模型假设被违反而推断出错误的动态。具体来说,传统RNA速度模型所做的恒定速率假设被违反,并且对该系统重要的基因表现出高噪音或低覆盖率。传统伪时间方法在初始条件已知的系统中取得的显著成功,激励研究团队通过开发PseudotimeKernel来规避RNA速度的局限性,该核函数计算基于伪时间的转换概率及相应的矢量场(图2a)。基于Palantir的概念性想法,研究团队的方法推广到任何预计算的伪时间,并使用软加权方案。

图2:利用伪时间排序进行细胞命运映射

研究团队将PseudotimeKernel应用于人类造血系统,基于扩散伪时间(DPT)计算了对红细胞、单核细胞和树突状细胞谱系的转换概率(图2b)。PseudotimeKernel正确恢复了所有四个终端状态和初始状态。为了进一步可视化恢复的动态,研究团队将RNA速度中的流线投影方案推广到任何基于邻居图的核函数(图2c)。研究团队将基因表达与谱系特异性命运概率相关联,以识别可能参与谱系承诺的候选基因;这种方法正确识别了RUNX2和TCF4作为浆细胞样树突状细胞(pDC)谱系的调节因子(图2d)。

与PseudotimeKernel相比,基于RNA速度的分析未能恢复经典的树突状细胞(cDC)谱系,且VelocityKernel分配的命运概率违反了已知的谱系承诺和层次结构,包括高转换概率从前红细胞和红细胞到单核细胞,而不是红细胞。这种与已知的真实转变不一致的情况源于RNA速度模型的假设被违反。作为额外的定量指标,研究团队计算了核函数跨边界正确性(CBC)分数的对数比值。该指标提供了两个核函数推导的细胞-细胞转换矩阵在已知细胞状态转变中的定量测量。正如命运概率的可视化所示,PseudotimeKernel在大多数细胞状态转变中显著优于竞争方法(8个中的6个)。作为替代比较,研究团队引入了终端状态识别(TSI)评分,以量化相对于最佳识别策略的已知终端状态的识别(TSI=1)。研究团队的伪时间方法再次优于基于RNA速度的方法(TSI=0.9 对比 TSI=0.81)。

研究团队的PseudotimeKernel可以推广到任何伪时间,允许用户选择最适合其数据集的算法。在具有更简单分化层次结构和已知初始状态的系统中,CellRank 2的PseudotimeKernel与经典的伪时间方法相比,为终端状态和命运承诺提供了额外的见解。

从发育潜力中学习向量场

   

伪时间推断需要指定初始状态。如果初始状态未知,可以使用 CytoTRACE通过假设在平均水平上,未分化的细胞表达的基因多于成熟细胞来推断干性评分。研究团队发现这一假设在许多早期发育场景中是有效的,但关键是,CytoTRACE 在应用于大数据集时的时间和内存使用上无法扩展,并且无法通过终末状态和命运概率解析单个轨迹。因此,研究团队通过修订原始的 CytoTRACE 方法开发了 CytoTRACEKernel,使得 k 最近邻图的边指向成熟度增加,并量化图谱规模数据集上的细胞-细胞转移概率。研究团队的内核结果与多个数据集上的原始方法一致。此外,研究团队在包含 130 万个细胞的小鼠器官发生图谱上比较了计算性能。虽然原始实现未能处理超过 8 万个细胞的数据集,但研究团队的改编在不到 2 分钟内运行完全部数据集。

研究团队应用 CytoTRACEKernel 研究了胚状体中内胚层的发育(图 3a)。正如预期的那样,基于 CytoTRACE 的伪时间在所有实验时间点上平滑增加(图 3b ),并使研究团队能够识别 11 个终末细胞群中的 10 个以及正确的初始状态(图 3c)。相比之下,Palantir和 DPT在第一阶段识别出了早期细胞的双峰分布,导致所有其他群体和阶段的伪时间范围压缩。

内胚层形成内部器官;因此,研究团队将命运概率与基因表达相关联,以推断可能引导器官发生的谱系相关基因,识别出 MIXL1、FOXA2 和 SOX17 转录因子(TFs),与原始出版物一致(图 3d)。为了揭示这些 TFs 的潜在上游调控因子,研究团队在热图中可视化了内胚层轨迹中排名靠前的谱系相关基因的平滑基因表达趋势,并根据它们在 CytoTRACE 伪时间中的峰值对基因进行排序(图 3e)。研究团队发现 LINC00458、LINC01356、NODAL 和九个 TFs 在 FOXA2 和 SOX17 之前达到峰值。所有这些基因都是已知的小鼠内胚层发育基因,研究团队预测 LINC00458 的表达在 LINC01356 之前达到峰值,这一现象也在之前的研究中被观察到。

CellRank 2 的 CytoTRACEKernel 使研究团队能够从内胚层发育的快照中推断细胞动力学,而无需为伪时间计算指定初始状态。研究团队恢复了终末状态、已知的驱动基因及其时间激活模式。

图3:CytoTRACEKernel恢复了时间基因激活

增加命运映射的时间分辨率

   

单细胞时间序列在研究非稳态分化程序中越来越受欢迎。计算挑战在于匹配在不同时间点测序的细胞,以重建状态变化的轨迹。大多数先前的方法要么确定了群体动态,要么使用了OT,但忽略了包含宝贵信息的时间点内转变,这些信息对指导转变和检测终端状态很重要。研究团队开发了RealTimeKernel,它结合了WOT计算的时间点间转换和基于相似性的时间点内转换,以实现多视图建模(图4a)。值得注意的是,考虑时间点间的转变可以通过更细粒度的细胞命运映射,无偏地识别时间序列研究中的终端和初始状态(图4b)。为了初步了解潜在的分化动态,研究团队在嵌入空间中可视化了高维RealTimeKernel派生的随机游走。

包括WOT在内的许多OT实现都使用熵正则化来加快计算速度;然而,这种做法引入了密集的转换矩阵,从而减慢了下游应用,使研究团队难以分析大型数据集。因此,研究团队开发了一种自适应阈值方案来稀疏转换矩阵,在小鼠胚胎成纤维细胞(MEF)重编程数据集上,分别使宏状态和命运概率计算速度提高了九倍和56倍。为了验证阈值方案,研究团队比较了有无阈值情况下对四个终端状态的命运概率的相关性,发现每个谱系内的相关性都非常高(皮尔逊相关系数r > 99)。总体而言,使用RealTimeKernel取得了完美的TSI评分(TSI = 1),而VelocityKernel的评分不理想(TSI = 0.79)。

许多应用,包括基因趋势绘图和与谱系相关的基因识别,需要连续的时间信息而不是离散的时间点。因此,研究团队提出了一种新的实时知情伪时间方法,该方法使用实验时间点但将其嵌入表达变化的连续景观中。在这个系统中,新的伪时间确实比传统的伪时间方法在MEF重编程数据上的相关性更高。与WOT相比,研究团队能够沿连续轴研究逐渐的命运建立。

咽内胚层是一种胚胎组织,在图案化咽喉区域和发育器官(如甲状旁腺、甲状腺和胸腺)中起着至关重要的作用。多个实验时间点可以捕捉其发展,使其成为RealTimeKernel的理想候选系统。研究团队分析了从胚胎日(E)9.5到12.5的基因表达变化(图4c),并自动恢复了初始状态和原始出版物中手动分配的11个终端状态中的10个(图4d)。此外,使用RealTimeKernel获得的TSI评分比VelocityKernel更高(TSI = 0.92对比TSI = 0.46)。将命运概率与基因表达相关联,正确恢复了已知的甲状旁腺(Gcm2)、甲状腺(Hhex)和胸腺(Foxn1)的谱系驱动因子。

为了解析通向髓质胸腺上皮细胞的轨迹,这是一种与胸腺粘附相关的基质细胞类型,研究团队首先选取了甲状旁腺、终支体、髓质和皮质胸腺上皮细胞(mTECs和cTECs)及其前体细胞。研究团队成功恢复了初始状态和每个终端状态,并且相比依赖于RNA速度估计,获得了更高的TSI评分(TSI = 1.0对比TSI = 0.91)。计算对终端状态的命运概率,研究团队发现了一个前体细胞簇,该簇具有更高的假定为mTEC命运的概率(图4e)。在二维统一流形近似和投影(UMAP)嵌入中容易忽略这个假定的mTEC祖先簇,强调了高维命运分析的重要性。接下来,研究团队使用基于相关性的分析来识别这种命运决策的可能驱动因子,并在相关性最高的20个基因中发现了TFs(Fos、Grhl3和Elf5)和与胸腺谱系相关的基因(图4e):Sfn和Perp是控制小鼠mTEC分化的p53信号通路的一部分;此外,TF p63靶向Perp并参与小鼠mTEC分化。类似地,研究团队恢复了先前报道的小鼠mTEC标志物,包括Grhl3、Pvrl4和Cd9。除了这些已知的小鼠mTEC标志物外,研究团队的顶级基因还包括S100a11和Fxyd3,这是不同人类环境中mTEC亚群的标志物,以及Hspb1,这是小鼠mTEC后期阶段的标志物。值得注意的是,研究团队的数据集的原始研究将TF Grhl3确定为具有较高特异性的假定早期mTEC标志物,相比传统使用的标志物。

与CellRank 2不同,WOT仅依赖于时间点间信息。应用于咽内胚层数据,它未能识别出假定的mTEC祖先簇。此外,即使研究团队利用RealTimeKernel在早期实验时间点识别出的假定mTEC前体的知识,经典的WOT在这些时间点上识别出的具有已知功能的mTEC发育驱动基因候选者也更少(图4f)。研究团队推测,性能下降的原因在于WOT依赖于回撤分布,这将每个早期细胞的可能性分配给任何晚期细胞,但不考虑时间点内的动态。相比之下,CellRank 2通过全局转换矩阵计算连续的命运概率,结合了时间点内和时间点间的转换。最后,经典的差异表达测试也恢复的已知驱动基因和TFs比研究团队的基于相关性的分析少。

研究团队的RealTimeKernel结合了实验时间点内和时间点间的基因表达变化。值得注意的是,这些互补的视角使识别出假定的前体群体和比专注于单一数据视角的方法显著更多的相关驱动因子成为可能。

图4:通过时间分辨测量推断状态轨迹

估计代谢标记中的动力学速率和命运

   

标准单细胞协议的破坏性特性阻碍了直接观察基因表达随时间变化的可能性。然而,通过新转录的mRNA分子的代谢标记,能够提供时间分辨的单细胞RNA测量结果,这显著改善了学习系统动态的能力。时间分辨率达到分钟到小时的级别,远高于典型的时间序列研究。研究团队开发了一种方法,利用脉冲-追踪实验的代谢标记数据来学习指向性状态变化轨迹(图5a)。

类似于之前的方法,研究团队通过一个动态系统模型化mRNA动态,包括mRNA分子的转录和降解速率。研究团队通过考虑通过代谢标记传递的动态信息(图5b),为每个细胞和基因估计这些速率。基于细胞间相似性图,对于每个细胞、基因和标记时间,研究团队确定了一个邻域,其中足够数量的细胞表达给定的基因。接下来,研究团队通过最小化观察到的转录本和估计的转录本之间的平方欧氏距离,来估计这些细胞集合的转录和降解速率。利用这些参数,研究团队推断出一个高维速度向量场,用于获取细胞间的转换概率,采用VelocityKernel。

研究团队将他们设计的方法应用于标有scEU-seq9的小鼠肠道器官oid数据,重点关注肠细胞、肠内分泌细胞、杯状细胞和泌乳细胞系。在参数估计之后,研究团队计算了潜在的速度场,推断了转换概率,并恢复了所有四个末端状态(图5c)。类似地,研究团队使用VelocityKernel中的经典RNA速度恢复了所有四个末端状态,即使用CellRank 1。研究团队通过细胞类型纯度评估推断的末端状态的质量,定义为最丰富细胞类型的百分比,推理是由于底层转换矩阵的推断不确定性较低而导致高细胞类型纯度。确实,研究团队观察到使用代谢标记信息推导的速度场的每个末端状态的高细胞类型纯度(平均为85%),但依赖经典RNA速度估计时细胞类型纯度较低(平均为67%)。此外,CellRank 2在TSI得分方面表现优于CellRank 1(分别为TSI = 0.81和TSI = 0.71)。

研究团队将他们的方法与基于代谢标记数据的细胞动态估计的替代方法dynamo进行比较。与研究团队的方法相比,dynamo依赖于稳态假设,仅使用少量细胞进行参数推断,不估计细胞特异性速率,并确定性地推断细胞轨迹。应用于器官oid数据时,dynamo仅恢复了肠细胞群体作为末端状态(图5c)。

除了识别每个谱系中最成熟的细胞群体外,研究团队还探讨了他们的方法是否将已知的谱系驱动因子排名高于其他竞争方法(包括集成标记信息的dynamo或不包括的CellRank 1和scVelo的RNA速度动态模型以及随机基线)。为了评估每种方法的基因排名质量,研究团队精心策划了每个谱系的已知调控因子和标记物的最佳排名列表,并将每种方法的排名与之进行比较。由于dynamo仅识别出肠细胞作为末端群集,因此无法排名其他任何谱系的驱动因子。使用基于标记信息的CellRank 2为每个四个末端状态实现了最佳排名(图5d),显著优于竞争方法,包括CellRank 1,无论是在相关基因表达和推断的转录速率与命运概率的相关性方面,还是识别潜在驱动基因方面。

估计的细胞和基因特异性动力学速率使我们能够研究这些谱系相关基因如何通过mRNA转录和降解调控。分析杯状细胞谱系中排名前100位谱系相关基因的已知调控因子和标记物的调控策略揭示了两种不同的调控策略(图5e)。第一种策略在降解率减少的情况下增加转录率(例如,Spdef、Sytl2和Fcgbp),而第二种策略同时增加转录和降解率(例如,Atp2a3、Tff3和Rassf6);这两种策略与先前发现的合作(情况1)和破坏性(情况2)调控策略一致。尽管目前还无法在单细胞测序协议中直接测量转录和降解速率,但转录速率的增加与这些基因作为杯状细胞谱系调控因子和标记物的角色一致。类似地,在肠细胞谱系中,这组相同的基因主要表现为(1)转录率减少伴随降解率增加(合作性),或(2)转录和降解率的同时增加/减少(破坏性;图5f)。

图5:通过代谢标记量化特定谱系的调控策略

结论

   

CellRank 2是一个强大、模块化和可扩展的框架,用于推断和研究单细胞轨迹和命运决定。通过使用核函数和估计器分离转换矩阵的推断和分析过程,CellRank 2能够适应多样的数据模态,并以一致且统一的方式克服单一数据类型方法的局限性。研究团队的工具成功地在人类造血过程中进行了基于伪时间的分析,并利用干细胞度量推断了人类内胚层发育过程中的基因动态。值得注意的是,这种模块化和可扩展的设计加快了每种数据模态的快速整合,使CellRank 2能够比之前的方法和实现分析更大规模的数据集。通过开发高效的OT(Optimal Transport)基于核函数,研究团队能够集成时间序列数据,考虑时间点内和时间点间的信息。借助这种方法,研究团队发现了在忽略时间点内动态的方法中被忽略的髓样胸腺上皮细胞的潜在祖细胞群体。近年来,时间序列研究已与遗传谱系追踪或空间分辨率结合起来,新兴的计算方法利用这些信息更准确地映射细胞在时间上的演变。这些增强的时间点间映射可以与研究团队的RealTimeKernel结合使用,进一步进行分析,如在线粒体中展示的线粒体追踪秀丽线虫数据和moscot中的时空鼠胚发育数据。这些应用突显了研究团队面向视图的框架在分析日益庞大、复杂和多模态时间序列研究中的重要性。此外,最近提出的连续时间序列数据分析替代方法Mellon,通过将其密度估计结合到OT问题中,可能提高了映射能力。

研究团队的核函数估计器设计在集成代谢标记以估计细胞特定的mRNA转录和降解速率方面尤为有价值。研究团队展示了代谢标记数据能够克服基于剪接的速度推断的固有局限性,成功地识别了肠道器官样体分化中所有谱系。结合推断的动力学速率,CellRank 2还使研究基因调控策略在细胞状态变化中的作用成为可能,如研究团队对杯状细胞和肠细胞系谱中展示的那样。与研究团队的方法相对应,其他人开发了velvet和storm来从代谢标记数据中估计细胞动态;然而,与研究团队的方法相比,velvet不估计转录速率,并假设所有细胞的降解速率恒定。而storm虽然放宽了这一假设,但只能通过后处理步骤实现。此外,storm依赖于确定性的下游分析。相比之下,CellRank 2估计细胞特定的转录和降解速率,并通过灵活的马尔可夫链建模提供概率性的下游分析。

近期的实验进展将单细胞代谢标记技术与基于液滴的检测或分拆池条形码方法相结合,用于大规模标记转录组并展示了在体内系统和在空间分辨率检测中的代谢标记,突显了研究团队提出的可扩展分析方法的必要性。研究团队计划通过同时推断动力学速率并沿分化轨迹排序细胞来进一步扩展研究团队的框架。

研究团队引入了利用细胞状态变化不同类型方向信息的核函数。如果至少有两(三)个标记时间段的代谢标记实验的代谢标记可用,研究团队提出的方法来推断代谢标记信息的向量场是合适的。RealTimeKernel适用于时间点紧密的时间序列,与基础动态过程相关。VelocityKernel可以与RNA速度一起使用,适用于符合RNA速度推断方法假设的系统。最后,如果能够确定唯一的初始状态并且分化是单向进行的,PseudotimeKernel可以增强对细胞状态变化的理解,而当初始状态未知时,CytoTRACEKernel可以使用。值得注意的是,如果违反或未充分满足基础假设,提出的核函数会导致不同的结果。例如,由于RNA速度模型的假设未能满足,VelocityKernel未能忠实地重现已知的造血分化层次。如果满足多个标准,不同的核函数可以与用户定义的全局权重结合,如RealTimeKernel中展示的;其他研究使用CellRank 2的核函数组合来研究心外胚过程和揭示人类皮质回折期间发展历史等。未来,研究团队计划引入局部核函数组合,这将涉及基于细胞在表型流形内相对位置的核权重,允许多个数据源的上下文相关集成。

识别潜在的驱动基因是可以在未来工作中扩展的另一个方面。目前,研究团队通过将命运概率与基因表达相关来排名潜在的驱动基因。尽管这种方法已在各种应用中证明有效,但仅基于相关性。为了揭示分子特性和变化与命运决策的因果机制,可以将干扰数据和因果推断与CellRank 2结合使用。这种组合最终将提高对基础分子驱动因素的理解。总的来说,随着单细胞数据集规模和多样性的增长,研究团队预计他们的框架在理解和概念化命运选择中将至关重要。

链接

   

引文:Weiler, P., Lange, M., Klein, M. et al. CellRank 2: unified fate mapping in multiview single-cell data. Nat Methods (2024).

如果有帮助记得关注+收藏~

原文链接:https://doi.org/10.1038/s41592-024-02303-9

代码链接:CellRank 2:https://github.com/theislab/cellrank和https://zenodo.org/doi/10.5281/zenodo.10210196;基于代谢标记数据推断动力学速率的实现:https://github.com/theislab/scvelo;复现论文结果的代码:https://github.com/theislab/cellrank2_reproducibility 和https://doi.org/10.5281/zenodo.10809425。

数据链接: https://doi.org/10.6084/m9.figshare.c.6843633.v1

启发

   

这项研究通过开发和应用CellRank 2框架展示了多视图单细胞数据分析中的新方法,但进一步改进和提升这些方法依然存在潜力。一个改进方法向是结合深度学习中的图神经网络(Graph Neural Networks, GNNs)和强化学习(Reinforcement Learning, RL),以进一步提升多模态数据整合和细胞命运决策的准确性和效率。具体而言,图神经网络能够更有效地处理单细胞RNA测序数据中的复杂图结构。通过利用GNNs,我们可以捕捉到细胞之间的高维相互关系和更深层次的结构信息,这对于精确建模细胞状态转变和命运决策至关重要。此外,图神经网络的扩展性和灵活性使其能够处理更大规模的数据集,从而提供更广泛的生物学应用。同时,将强化学习引入轨迹推断过程,可以通过试探和优化策略不断提升模型的性能。强化学习模型可以通过不断学习和调整,找到最优的细胞状态转变路径,从而更准确地预测细胞的最终命运。这种方法特别适用于动态变化和高复杂度的生物系统,在多模态数据整合过程中具有显著优势。结合这两种先进方法的模型不仅能够捕捉更丰富的细胞间关系,还能通过优化策略提升预测准确性和效率。例如,使用GNNs可以更精确地构建细胞间的转变概率矩阵,而RL可以优化这些转变路径,使得最终的细胞命运预测更加准确和可靠。这样的结合方法能够克服现有方法在数据整合和动态变化捕捉上的不足,提供更全面和精确的细胞命运分析。

合作和投稿事宜请联系微信或邮箱

合作请加微信:l2195711724  投稿邮箱:advancebc@163.com

AdvanceBC科研群聊微信扫码,备注好地区-单位(选填)-昵称,广告勿扰