ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
115 stars 30 forks source link

Nat. Methods. | 基于单细胞和空间转录组学推断细胞间通信信号流动 #5509

Closed ixxmu closed 1 month ago

ixxmu commented 1 month ago

https://mp.weixin.qq.com/s/cIDVGyFXn5xS4yX_mpzpBA

ixxmu commented 1 month ago

Nat. Methods. | 基于单细胞和空间转录组学推断细胞间通信信号流动 by AdvanceBC

2024年8月26日,来自Qing Nie研究团队的Axel A. Almet、Yuan-Chen Tsai和Momoko Watanabe在Nature Methods期刊上发表了一篇题为“Inferring pattern-driving intercellular flows from single-cell and spatial transcriptomics”的研究文章。文章中,作者介绍了一种名为FlowSig的方法,能够从单细胞RNA测序和空间转录组数据中推断出驱动模式的细胞间流动。通过图形因果建模和条件独立性测试,FlowSig不仅能够揭示细胞间通信如何驱动信息流,还能捕捉到在疾病进展或外部刺激下的细胞间流动变化。该研究的亮点在于其通过生成的数学模型和实验数据验证了FlowSig的准确性,并展示了其在多种研究中的应用,例如解析胰岛素分泌、COVID-19严重程度与细胞间流动的关系,以及胚胎发育过程中的模式生成

关键字

空间转录组学 | 细胞形态学 | TESLA算法

引言

在生物体内,细胞通过一系列复杂的生化信号进行沟通,以协调和调节各种生物活动。这些信号在细胞间的流动不仅决定了生物体内的基本功能,如组织发育和器官维持,还在疾病状态下扮演着关键角色。例如,在胚胎发育过程中,细胞间的信号流动通过基因调控网络驱动了组织的形态发生;而在癌症等疾病中,异常的细胞间信号传递可能导致肿瘤的形成和扩散。因此,理解这些细胞间流动对于揭示健康和疾病的基本机制至关重要。

近年来,单细胞RNA测序(scRNA-seq)和空间转录组学(ST)技术的迅速发展,使得研究人员能够同时测量数万个基因的表达情况,从而捕捉到生物组织中基因表达的高维度快照。这些数据提供了研究细胞间通信的前所未有的机会。然而,目前的研究方法主要集中于构建基因表达模块或推断配体-受体相互作用网络,但它们通常忽略了这些相互作用如何共同驱动更广泛的细胞间信号流动。这种方法上的局限性导致对细胞间通信如何在生物体内产生实际效果的理解仍然十分有限。

为了填补这一研究空白,研究团队开发了一种名为FlowSig的新方法,旨在通过图形因果建模和条件独立性测试,从scRNA-seq或ST数据中推断出由细胞通信驱动的信号流动。FlowSig不仅能够揭示输入信号是如何在细胞内部通过基因调控模块传递并最终产生输出信号的,还能够捕捉到这些信号流动在疾病进展或外部刺激下的动态变化。

研究内容

这项研究开发了一种名为FlowSig的方法,以推断由细胞间通信驱动的细胞间流动。FlowSig通过图形因果模型和条件独立性测试,从单细胞RNA测序(scRNA-seq)和空间转录组学(ST)数据中构建一个描述细胞间信息流动的因果网络。具体而言,FlowSig首先引入三类核心变量:流入信号变量、细胞内基因模块(GEMs)和流出信号变量流入信号变量代表细胞接收到的外界信号,这些信号通常通过配体-受体相互作用介导,并由受体基因表达与其下游转录因子(TF)基因集合的平均表达量的乘积来表示。GEMs捕捉细胞内的调控响应,它们可以是单个转录因子或由相关基因组成的模块。流出信号变量则代表细胞经过信号处理后向外发出的信号,例如配体基因表达。

在模型构建过程中,FlowSig应用图形因果建模来学习变量之间的依赖关系,并使用条件独立性测试和未知目标干预贪婪稀疏置换算法(UT-IGSP)生成一个完成部分有向无环图(CPDAG)。UT-IGSP算法能够利用统计条件独立性关系,从数据中推断出一组等价的有向无环图(DAG),这些图形具有相同的无向骨架图和有向v结构。为了增强因果网络的生物学合理性,FlowSig基于生物学假设(即流入信号通过细胞内模块处理后被转化为流出信号)对CPDAG进行定向,以减少假阳性发现的可能性。

对于非空间的scRNA-seq数据,FlowSig面临的一个挑战是无法直接测量每个细胞接收到的细胞间信号为了解决这一问题,FlowSig引入了两个约束条件首先,方法仅适用于那些将“控制”条件与一个或多个扰动条件(如健康与疾病状态)进行比较的研究,从而利用扰动数据获得的额外信息来帮助缩小可能的流动图范围,减少假阳性边的发现。其次,FlowSig从OmniPath数据库中提取配体-受体相互作用的下游转录因子目标,以衡量信号流入的实际效应。这一信号流入由受体基因表达量和下游转录因子表达量的乘积表示,量化了细胞接收和响应信号的潜力。

对于空间转录组学数据,由于目前该领域的技术和实验相对较少,FlowSig通过使用COMMOT等通信方法对空间中的信号流入进行约束和精确测量,从而在缺乏扰动实验数据的情况下避免误差。

为了验证FlowSig的有效性,研究团队首先使用从数学模型生成的合成数据对其进行基准测试。这些数学模型模拟了包括单向细胞间流动、SHH信号驱动的组织模式化以及SHH与BMP4竞争驱动的背腹模式化等多种情景。实验结果表明,FlowSig在准确测量信号流入时,尤其是在复杂的多方向流动情况下,显著提高了真阴性率(TNR),从而减少了假阳性发现。此外,通过扰动数据的引入,FlowSig的准确性得到了进一步的提升。

在与其他现有方法的基准测试中,FlowSig展示了其独特的优势。研究团队将FlowSig与其他用于构建多细胞程序表示的方法进行了比较,如DIALOGUE、scITD和MOFAcellular等,并在不同的实际数据集上进行了应用,包括胰岛细胞刺激实验、COVID-19的不同严重程度研究,以及小鼠胚胎发育的ST数据分析。结果显示,FlowSig不仅能够准确识别由细胞间通信驱动的流动模式,还能够揭示这些流动的细胞内调控模块,展示了其在高维基因表达数据分析中的广泛适用性和独特的洞察力。

研究结果

FlowSig使用基因表达测量结果和细胞间通信推断的输出来学习描述定向依赖关系的细胞间流动。这些依赖关系从流入的细胞间信号指向细胞内的GEMs(可能是个别的TFs或细胞特定富集的相关基因集合),并从GEMs指向流出的细胞间信号(图1a)。研究团队使用图形因果模型来模拟细胞间流动,其中节点表示流动变量——流入信号、GEMs和流出信号——并通过条件独立性测试和未知目标干预贪心最稀疏置换算法(UT-IGSP)来学习一个有向图。考虑到可以使用统计条件独立关系来推断一组等效的有向无环图(DAGs),这些DAGs具有相同的无向骨架图和有向v结构(连接的节点三元组(x, y, z)具有有向边x→y←z),他们使用UT-IGSP来学习一个初始的CPDAG,该CPDAG可以包含有向弧和无向边。然后通过重新定向无向边并删除生物学上不现实的弧来构建细胞间流动网络,从而使边从流入信号指向GEMs、在GEMs之间以及从GEMs指向流出信号。
尽管使用FlowSig分析非空间scRNA-seq和ST数据的核心步骤相同,但也存在一些差异。对于非空间scRNA-seq数据,必须克服一个基本问题:无法直接测量每个细胞接收到的细胞间信号。因此,研究团队提出了两个约束(图1b)。首先只考虑比较“对照”条件与一个或多个受干扰条件的研究,例如健康与疾病。通过条件不变性测试利用从干扰数据中获得的附加信息来缩小可能的流图集合,从而减少错误正边发现的发生。其次,对于从细胞间通信推断中推断出的每个配体-受体相互作用,从OmniPath数据库中提取下游TF目标来测量信号流入。受体基因表达量衡量了细胞接收细胞间信号的潜力,下游TF表达量衡量了细胞实际接收到信号的程度;研究团队将信号流入定义为受体基因表达量与下游TF目标的平均表达量的乘积。

ST技术目前还处于起步阶段,因此相对于scRNA-seq研究而言,控制与干扰ST研究的数量较少。可以使用COMMOT14等通信方法来在空间上约束并更准确地测量流入信号的量(图1c)。因此,FlowSig使用贪心最稀疏算法(GSP),该算法不使用干扰数据来分析ST数据。

图1:FlowSig模型描述

FlowSig的合成验证

研究团队首先使用从细胞间流动数学模型生成的合成数据对FlowSig进行了基准测试。为了简化起见,他们将GEMs建模为个别的TFs。研究团队考虑了三种情况。第一种情况,他们检查了由SHH信号引起的单向细胞间流动,该信号通过FOXF1生成BMP4的流出,流动在五个节点上进行学习:SHH配体、未结合的PTCH1受体、SHH流入(由SHH-PTCH1结合引起)、FOXF1 TF和BMP4配体(图2a)。第二种情况涉及由SHH引起的组织模式化,其特征是NKX2.2、OLIG2、PAX6和IRX3的表达。流动在七个节点上进行推断:SHH配体、未结合的PTCH1受体、SHH流入(SHH-PTCH1复合体)、NKX2.2 TF、OLIG2 TF、PAX6 TF和IRX3 TF(图2b)。在第三种情况中,研究团队探讨了SHH和BMP4在驱动背腹模式化中的竞争。流动在包括SHH配体、未结合的PTCH1受体、流入的SHH(SHH-PTCH1复合体)、BMP4配体、未结合的BMP1A和BMPR2受体、流入的BMP4(BMP复合体)以及三个GEM变量:背部、中间和腹部的九个节点上进行学习(图2c)。研究团队想要验证FlowSig的两个核心假设。第一个是准确测量流入信号是推断细胞间流动所必需的。对于所有模型,他们将使用结合的配体-受体复合体作为信号流入与总受体表达量(自由受体加上结合的复合体)进行了比较,后者直接从scRNA-seq和ST数据中测量。第二个是包括干扰数据可以提高细胞间流动推断的准确性。研究团队通过测量每种情况的真实阳性率(TPR)和真实阴性率(TNR)来量化FlowSig的准确性。对于所有情况(图2d-f),他们发现使用结合的受体表达量来测量信号流入或引入干扰数据时,平均TPR并没有改变。然而,使用结合受体来测量流入增加了平均TNR。这在描述由SHH驱动的模式化和SHH与BMP4之间竞争的模型中尤其明显,在这些模型中流动更加复杂和多方向(图2e,f)。通过条件不变性测试引入干扰数据减少了TNR值的变化,无论是在四分位间距还是离群值方面,从而得到了对细胞间流动的“更紧密”估计。这些结果表明,FlowSig减少了从基线GSP和UT-IGSP算法推断的错误正发现数量。

图2:合成验证的FlowSig

FlowSig相对于多细胞表示方法的基准测试

为了更深入了解FlowSig的能力,研究团队将其与从scRNA-seq和ST数据构建多细胞程序表示的方法进行了基准测试,包括DIALOGUE、scITD、MOFAcellular、MOFAtalk、MultiNicheNet和Tensor-cell2cell。他们还将FlowSig与直接的CellChat输出进行了比较。所有方法都使用了Kang等人生成的一个来自红斑狼疮患者的外周血单核细胞刺激后scRNA-seq数据集进行基准测试。以下是关键要点的总结。研究团队还评估了FlowSig对通过不同细胞间通信和GEM构建方法构建的不同输入的鲁棒性,发现不同的细胞间通信方法可能会导致不同的细胞间流动集,这是由于推断出的配体-受体相互作用之间的差异;然而,FlowSig能够通过由不同方法构建的GEMs推断出富集相同调控TF的细胞间流动。

直接分析CellChat输出表明存在6,886种潜在的流入到流出关系。其中,3,167种在两种条件下共享,1,511种是对照条件特有的,2,208种是刺激条件特有的。仅从CellChat的结果来看,研究团队无法推断出这些关系中哪些是真正的细胞间流动,即第二次相互作用是否依赖于第一次相互作用,并且无法推断出这些细胞间流动的细胞内介质。相比之下,FlowSig仅在6个信号流入变量、20个GEMs和12个信号流出变量之间推断出了44个细胞间流动。

DIALOGUE从Kang等人的数据集中识别出了四个多细胞程序(MCPs)。MCP1在CD14+单核细胞、CD8+T细胞和B细胞中富集,表明这些细胞类型之间可能通过细胞间流动进行协调。在MCP4中,CD8+T细胞和CD14+细胞在不同条件下表现出显著的差异表达。DIALOGUE识别出了信号配体CCL4的上调,研究团队推断FlowSig可能驱动了信号的流出。scITD将数据集分解为两个潜在因素:因素1显著富集了FlowSig信号流出的配体CXCL10、CXCL11和TNFSF10及驱动细胞间流动的相互作用。MOFAcellular将数据集分解为五个因素:因素1富集了信号流出变量CXCL11和TNFSF10。将MOFATalk应用于从LIANA推断出的配体-受体相互作用分数,得出了四个因素:因素1富集了CCL2-CCR1和CCL8-CCR1(在CD14+细胞、树突状细胞(DCs)和FGR3+细胞之间的相互作用以及TNFSF13B的信号流出。Tensor-cell2cell从从LIANA推断出的配体-受体相互作用分数中提取了六个因素:CD14+细胞、DCs和FGR3+细胞被识别为关键信号接收群体。聚类配体-受体相互作用发现,CCL2-CCR1、CCL3-CCR1、CCL4-CCR1和CCL8-CCR1在刺激后上调。最后,MultiNicheNet识别出CCL2-CCR1、CCL3-CCR1、CCL4-CCR1和CCL8-CCR1在不同条件下差异表达。MultiNicheNet还识别出CXCL10、CXCL11和FASLG的流出以及CCR1的流入。

使用皮质类器官系统验证FlowSig

研究团队在一个新的皮质发育类器官模型生成的scRNA-seq数据上测试了FlowSig。在该模型中,已知成纤维细胞生长因子(FGF)和骨形态发生蛋白(BMP)信号驱动模式形成。研究团队从人类胚胎干细胞生成了皮质类器官,并在培养的第18天(D18)和第35天(D35)收集类器官进行scRNA-seq分析。在类器官系统中,皮质身份的细胞命运在D18时已经确定,而在D35时,通过梯度TF表达测量的对FGF和BMP的信号响应已经建立。FGF和BMP信号的持续暴露驱动了基因表达的剧烈变化,因此在D18和D35之间,随着类器官的成熟,出现了转录变化和细胞类型组成的变化。因此,在将FlowSig应用于该数据集时,研究团队将D35的数据视为因暴露于FGF和BMP信号而形成的“受扰”形式的“对照”D18数据,而不是假设D18和D35的群体是从相同的“稳态”基因转录分布中采样的。

研究团队从CellChat分析中识别出的77个独特的配体-受体相互作用中,识别出了不同流动的信号。FlowSig识别了26个不同流入信号(图3a)和16个不同流出信号(图3b),包括FGF和BMP。研究团队使用pyLIGER从2,793个高变基因中构建了20个GEMs(图3c)。D18时间点的细胞在GEM-2到GEM-4、GEM-7、GEM-10、GEM-18和GEM-19上更加富集,而D35时间点的细胞则在GEM-8、GEM-11、GEM-12、GEM-16和GEM-20上富集。总之,FlowSig构建了62个变量用于细胞间流动推断。推断完成后,研究团队按其母信号通路聚合了信号流入变量。例如,研究团队将FGFR1和FGFR3的流入都归类于FGF信号通路,这些流入由接收到的FGF2配体激活。

为了确定细胞间流动的主要驱动因素,研究团队根据其总边频率对信号流入变量进行了排序。研究发现,FGF、中胚层素(MK)、多效蛋白(PTN)和神经调节蛋白(NRG)是细胞间流动的驱动因素。尤其是FGF流入,驱动了包括BMP4、胰岛素样生长因子-II(IGF-II)、神经生长因子(NGF)、NRG1和NRG3在内的信号流出,并通过多个GEMs(图3d)。通过检查由FGF诱导的流动介导的顶级GEM特异性TFs,研究团队发现EOMES可能是FGF流入的潜在调节候选者。研究团队观察到BMP流入通过更少的GEMs调节(图3e),并且可能由PAX6或NR2F1介导。

为了验证FlowSig分析,研究团队分析了一个受扰的类器官培养物,在D15至D21之间通过添加FGF8b和BMP4分别激活了FGF和BMP信号通路。研究团队在D35收集类器官样本,并对其进行定量逆转录PCR(RT-qPCR)基因表达分析(图3f,g)。与未暴露的对照类器官相比,研究团队观察到激活FGF信号显著下调了EOMES的表达(图3f),而提升BMP信号同时下调了PAX6并上调了NR2F1的表达(图3g)。这些实验数据表明,FlowSig准确捕捉到了真实生物数据集中细胞间流动的主要驱动因素。

这项研究开发了一种名为FlowSig的方法,用于从单细胞RNA测序和空间转录组学(ST)数据中推断驱动模式的细胞间信号流动。FlowSig模型的核心在于通过图形因果建模和条件独立性测试,构建一个描述细胞间通信的部分有向无环图(CPDAG),以揭示信号输入、细胞内基因模块(GEMs)和信号输出之间的依赖关系。在数据预处理中,研究团队首先对scRNA-seq数据进行了标准的处理步骤,包括数据归一化、去除低表达基因以及批次效应校正。同时,为了增强分析的精度,研究团队筛选了高变基因,并通过构建基因表达模块(GEMs),将高维度的基因表达数据降维成少数几个能够解释大部分变异的潜在因子。这些GEMs代表了细胞内的调控活动,是FlowSig模型中的关键变量。

在FlowSig模型的信号流动推断过程中,研究团队首先定义了信号输入和信号输出。信号输入通过配体-受体相互作用网络来描述,每个细胞的信号输入被表示为其受体基因表达与下游转录因子(TFs)基因集的平均表达水平的乘积,这一输入信号反映了细胞接收到的外界信号的强度。信号输出则是通过GEMs的活性来衡量,GEMs由多个基因的共同表达模式构成,能够捕捉细胞内的调控响应。

在图形因果建模阶段,研究团队使用了不完备目标干预贪婪稀疏排列算法(UT-IGSP),生成初始的部分有向无环图(CPDAG),该图描述了信号输入、GEMs和信号输出之间的依赖关系。为了减少误报率并提高模型的生物学解释性,研究团队基于生物学假设对CPDAG进行了定向调整,确保信号流动从输入信号经过GEMs传递到输出信号。在非空间的scRNA-seq数据分析中,研究团队采用了两个约束条件:首先,仅考虑比较“控制”与“处理”条件的研究,这些处理条件可以是疾病状态或外部刺激等;其次,利用条件不变性测试,通过控制与处理数据的对比,进一步减少可能的图生成空间,从而提高推断的准确性。

对于空间转录组学数据,研究团队应用了贪婪稀疏算法(GSP),结合空间位置信息,以更准确地推断出每个空间位置的信号输入量,从而在没有额外处理数据的情况下推断出细胞间的信号流动。为了验证FlowSig的有效性,研究团队使用了两种方法:一是通过数学模型生成合成数据,模拟了不同的细胞间流动场景,如单向流动、受Shh信号驱动的组织模式化,以及Shh与BMP4之间的信号竞争;二是生成新的实验性数据,包括皮层类器官中的数据,并将FlowSig应用于这些数据,以验证其在实际生物学数据中的表现。此外,研究团队还将FlowSig与其他多细胞程序表示方法进行了对比,展示了FlowSig在不同生物学背景下的优越性,特别是在解析细胞间通信驱动的信号流动方面。

图3:使用皮质类器官模型验证FlowSig

FlowSig识别出由于刺激引起的细胞间流动变化

为了展示FlowSig如何恢复由外部干扰驱动的细胞间流动,研究团队分析了人类胰岛细胞受干扰素-γ(IFN-γ)刺激后的scRNA-seq数据。他们使用pyLIGER构建了十个GEMs,与研究团队独立识别出的五个细胞类型簇相对应(图4a)。研究团队将这些细胞类型注释作为初步CellChat分析的输入;也就是说,对于每个条件,CellChat推断这些细胞类型标签定义的细胞群体之间的重要配体-受体相互作用。

IFN-γ刺激通过FGFR1增加了FGF信号通路的流入、通过IL-6R和IL-6ST增加了白细胞介素-6(IL-6)的流入、通过CD74和CD44增加了MIF的流入、通过NCL增加了MDK的流入以及通过SSTR2增加了SST的流入(图4b)。IFN-γ刺激增加了GCG、INHBA和NAMPT的流出,同时减少了ANGPTL2、SPP1、转化生长因子β1(TGFβ1)、肿瘤坏死超家族成员12(TNFSF12)和UCN3的流出(图4c)。FlowSig识别出FGF、IL-6、MDK和SST是驱动细胞间流动的主要因素,这些因素通过GEM-1、GEM-3、GEM-5和GEM-6驱动了GCG、INHBA、NAMPT、SPP1、TGFβ1、TNFSF12和UCN3的流出(图4d)。研究团队观察到GEM-1在α细胞和β1细胞簇中富集,GEM-3和GEM-5在α细胞簇中富集,GEM-4在β2细胞簇中富集,而GEM-6在β1细胞簇中富集(图4a),表明细胞间流动是由细胞类型驱动的。这些结果与之前的研究一致,即在胰腺中,α细胞是GCG的主要分泌者,β细胞是UCN3的主要分泌者,SST调节GCG和UCN3的分泌。研究团队观察到相同的TFs在所有这些GEMs中都有贡献——ID1、NR1D1、TFF3和ZNF419——这表明这些TFs在两种条件下都介导了细胞间流动。

为了进一步探讨IFN-γ刺激的影响,研究团队将全局细胞间流动网络分为两个网络。首先,他们构建了一个与IFN-γ刺激上调的流出信号相对应的网络,通过提取在IFN-γ条件下差异表达的流出信号、连接这些流出变量的GEMs以及与这些GEMs连接的信号流入节点,从全局细胞间流动网络中提取子图(图4e)。第二个网络与IFN-γ下调的流出信号对应,并以类似方式构建(图4f)。两个网络包含相同的信号流入节点,并共享几乎相同的GEMs。然而,GEM-3只存在于“上调”网络中,该GEM驱动GCG和NAMPT的流出,并由SSTR2(SST)信号调节,这表明其在IFN-γ刺激下激活了一个特定的功能。GEM-3主要在α细胞中富集,这表明刺激驱动了GCG和NAMPT从α细胞的流出。所有其他的流入信号和GEMs在两种条件下共享,表明具有双重调节功能。例如,IL-6信号同时驱动INHBA和NAMPT的上调以及SPP1、TGFβ1和UCN3的下调(通过GEM-4)。

图4:将FlowSig应用于被干扰的人胰腺岛细胞的非空间scRNA-seq

FlowSig使用多种干扰来发现由疾病驱动的变化

为了展示FlowSig处理多种干扰的能力,研究团队分析了从健康对照组和中度或重度COVID-19患者中采样的人类支气管肺泡灌洗液(BALF)细胞的scRNA-seq数据。研究团队使用CellChat和原始研究中的细胞类型注释来推断重要的配体-受体相互作用,发现健康对照组、中度COVID-19组和重度COVID-19组分别有46、55和54个活跃的信号通路。

研究团队使用pyLIGER构建了20个GEMs,这些GEMs捕捉了不同条件(图5a)和细胞类型(图5b)之间的差异。FlowSig识别出相对于健康对照组而言,每种COVID-19条件下特异的差异流入和流出信号(图5c)。研究团队注意到,在重度COVID-19中,许多炎症性CC趋化因子(CCLs)的差异表达,包括CCL2、CCL3、CCL8、CCL3L1和CCL7,以及CXC趋化因子如CXCL2和CXCL8。在中度COVID-19中,他们观察到较少的炎症细胞因子的差异流出,包括CCL5和CCL23。

为了分析驱动这些差异流出的细胞间流动,研究团队对每组差异流出信号提取了至少有一条有向路径通向流出信号的上游流入信号以及推断的FlowSig网络中的相应GEMs(图5d-f)。尽管随着COVID-19严重程度的增加,差异流出信号的数量增加,但推断出的信号流入的数量却从37减少到32(失去AXL、CD4、F2RL1、ITGAX和ITGB2、TNFRSF12A和TNFRSF14;获得CAP1),然后减少到25(失去CD27、CXCR3、FPR1、IL-6R和IL-6ST、LTBR、NCL、NRP2和PLXNA2、SDC1、TNFRSF13B、TNFRSF17和TNFRSF25;获得AXL、CD4、F2RL1和TNFRSF14)。GEMs也呈现出类似的趋势:从健康到中度COVID-19,调节GEMs的数量从16减少到13(失去GEM-4、GEM-10、GEM-12和GEM-14;获得GEM-7)。图5a、b的结果表明,从健康到中度COVID-19的转变与通过上皮细胞(GEM-4)、浆细胞和T细胞(GEM-10)以及巨噬细胞和中性粒细胞(GEM-12)的细胞间流动下调有关,但通过肥大细胞(GEM-7)的细胞间流动上调。从中度到重度COVID-19,GEMs的数量从13减少到8(失去GEM-1、GEM-2、GEM-5、GEM-11、GEM-13、GEM-18和GEM-19;获得GEM-12和GEM-14)。

研究团队还计算了驱动信号流出的信号流入集图5g)和GEM集(图5h)之间的交集。他们观察到37个信号流入中有20个在所有三个条件下都共享。没有任何信号流入是中度或重度COVID-19特有的,而通过TNFRSF12A(由于TNFSF12)和ITGAX及ITGB2(由于C3)的流入仅在健康对照中驱动流出。只有通过CAP(来自RETN1)的流入在中度和重度COVID-19中共享,但在健康对照中缺失。健康和中度COVID-19组之间共享的信号流入比健康和重度COVID-19组之间或中度和重度COVID-19组之间共享的信号流入更多。在推断的调节GEMs中也观察到类似的趋势。最常共享的GEMs在健康和中度COVID-19组之间(17个中有7个)以及所有三个条件之间(17个中有5个)共享。GEM-4和GEM-10,分别与上皮细胞和T细胞相关,仅在健康个体中介导信号流出。只有与肥大细胞相关的GEM-7在中度和重度COVID-19组之间共享,但不在健康对照中共享。在重度COVID-19组中,调节差异流出的GEMs中没有任何GEMs是重度COVID-19组特有的。这些结果展示了FlowSig如何利用多种干扰来识别细胞间流动的趋势。在这里,FlowSig识别出COVID-19严重程度的增加与(1)调节性细胞间流入的逐渐丧失和(2)由巨噬细胞和中性粒细胞驱动的炎症性趋化因子流出的增加有关。

图5:将FlowSig应用于来自患有中度或重度COVID-19的人的人类BALF的scRNA-seq

FlowSig识别出空间细胞间流动的调节因子

研究团队将FlowSig应用于小鼠胚胎发育第E9.5阶段的空间Stereo-seq数据。他们使用非负空间分解法构建了20个空间分辨的GEMs,这些GEMs来自712个空间可变基因(图6a)。研究团队识别出Shh流出的空间变异性很高,并推断出Shh在整个组织中的流入,这与Shh在发育中的重要性一致。FlowSig识别出几个Shh流出的上游驱动因子,包括Bmp4、Cxcl12、Fgf15、Mdk、Ptn和Wnt5a,这些因子通过GEM-2、GEM-5、GEM-11和GEM-14调节晚期Shh的流出(图6b)。研究团队还推断出接收到的Shh流入(简称为r-Shh)通过GEM-2、GEM-5、GEM-9、GEM-11、GEM-12、GEM-14、GEM-15和GEM-17驱动多个信号配体的流出(图6c)。

研究团队利用这些空间分辨测量数据来推断Shh流出的特定上游调节因子和r-Shh流入的下游靶点。对于每个GEM,他们提取了模块成员资格排名前10的TFs(见方法中的“解读基因表达模块”)。研究团队使用随机森林模型识别出潜在的Shh流出的上游TFs,并根据特征(Gini重要性)对所有潜在的上游TFs进行排名(见方法中的“推断空间信号的上游TF调节因子”;图6d)。他们识别出Foxa2、Foxp2、Myc、Zc3h7a和Foxa1是Shh流出的五个主要上游调节TFs。其中,Foxa1和Foxa2已被证实可以调节Shh,而Foxp2也是Shh信号下游的调节因子,尽管Myc被证实在Shh信号下游受到调控,但作为上游调节因子,其作用较小。

为了识别r-Shh流入的下游靶点,研究团队使用pyGAM模型(立方样条、伽玛误差分布和长链接)拟合每个GEM的前10个TFs,并将这些TFs作为r-Shh流入的函数图6e)。研究团队通过Spearman相关性对这些TF进行了排名,并发现Foxa2与r-Shh的相关性最高,这表明Foxa2可能推动Shh的自我生成。研究团队还观察到,其他与r-Shh高度相关的下游TF包括已知的靶标,如Barhl1、Nkx2-1、Meox1、Tcf21和Foxp2,以及与Shh相关的下游靶标,如Foxe1、Nkx2-2、Pou3f1、Tlx2和Nkx2-4。

研究团队观察到Shh与Bmp4、Cxcl12、Igf2、Mdk和Wnt5a之间可能存在双向流动。为了进一步验证这些流动,研究团队对每个配体提取了既在上游又在r-Shh下游的GEM特异性TFs,并使用随机森林模型计算每个TF对配体流出的重要性。研究发现,只有Wnt5a的流出由与r-Shh流入相同的TFs显著调节,这些TFs也通过GEM-5调节r-Shh流入。此外,流出Wnt5a和流入r-Wnt5a在空间上与流入r-Shh和流出Shh共定位。Foxa2、Nkx6-1和Sox21是通过GEM-5调节Wnt5a的上游TFs,其中已知Foxa2可以调节Wnt5a。为了研究流入r-Wnt5a是否调节Wnt5a的流出,研究团队使用pyGAM拟合GEM-11中TFs的预测值与r-Wnt5a流入的Spearman相关性(图6g)。研究团队观察到,Shh流出的上游调节因子Myc与r-Wnt5a流入呈负相关。

这些观察结果表明Shh和Wnt5a之间存在以下双向流动(图6h)。首先,Shh的流出和扩散驱动r-Shh的流入,通过Foxa2自我放大Shh的流出。同时,r-Shh的流入通过Foxa2、Nkx6-1和Sox21驱动Wnt5a的流出,而r-Wnt5a的流入通过空间扩散下调Myc的Shh流出。这种模式类似于一个激活-抑制器系统,可以产生潜在的图灵模式。该系统具有三个关键特征:首先,一个或两个信号可以传播;其次,两个信号——Shh和Wnt5a配体——分别通过Foxa2和Nkx6-1及Sox21上调或下调;第三,Wnt5a通过下调Myc来抑制Shh,这表明在胚胎发育第E9.5阶段,Shh和Wnt5a可能发挥类似作用。

图6:将FlowSig应用于小鼠胚胎发生E9.5阶段的空间Stereo-seq数据

结论与前景

研究团队开发了FlowSig,一种能够推断细胞间通信活动的工具,这些活动可能通过协调的GEMs相互依赖。FlowSig的核心在于构建能够测量细胞间信息(接收和发送)或细胞内信息的变量。通过将图形因果建模和因果结构学习应用于scRNA-seq和ST数据,FlowSig为高维组学数据的分析提供了一个前瞻性的框架。随着这些数据的持续积累,研究领域将逐步转向更具预测性的分析,而因果推断和因果结构学习模型将成为这一转变中的关键工具。

FlowSig与现有的多细胞表示程序构建方法互为补充,例如DIALOGUE和MOFAcellular等方法。这些方法各有侧重,FlowSig特别在推断通信驱动的细胞间流动方面展现了独特的优势。未来,随着新型数据模式的出现,如Phospho-seq等测量翻译后反应的数据,将为FlowSig的验证和进一步优化提供更多机会。

思考与挑战

尽管FlowSig在推断细胞间流动方面具有显著的优势,但其也存在一定的局限性。首先,FlowSig使用基于部分相关性的条件独立性不变性测试,这要求数据集必须具有足够大的样本量,以确保依赖关系的统计显著性。此外,部分相关性假设数据分布符合线性高斯模型,而在实际应用中,这一假设可能并不总是成立。随着变量数量的增加,FlowSig使用的图学习算法可能会推断出更多的假阳性关系。

对于非空间应用,准确学习细胞间流动还需要确保扰动能够显著改变一个或多个变量的分布。然而,当扰动完全抑制信号变量的表达或诱导对照条件下未表达的变量时,部分相关性测试将无法进行。此外,FlowSig当前推断的是静态图,而细胞间流动本质上是动态的。因此,将FlowSig扩展到捕捉时空流动是未来的一个重要挑战。

在应对这些挑战的过程中,研究团队可能需要探索结合新的数据分析方法和工具,如SCENIC或测量开放染色质可及性的数据,以进一步完善FlowSig的推断能力。这将帮助研究人员更好地理解和模拟复杂的细胞间通信网络,并推动该领域的进一步发展。

链接

  • 引文:Almet, A.A., Tsai, YC., Watanabe, M. et al. Inferring pattern-driving intercellular flows from single-cell and spatial transcriptomics. Nat Methods (2024).
  • 原文链接:https://doi.org/10.1038/s41592-024-02380-w
  • 代码链接:FlowSig可以作为Python软件包从GitHub安装:https://github.com/axelalmet/flowsig;用于生成手稿中分析的所有脚本:https://github.com/axelalmet/FlowSigAnalysis_2023;研究中使用的所有数据集的处理版本:https://doi.org/10.5281/zenodo.10850397
  • 数据链接:人类皮质类器官的scRNA-seq数据:GEO(GSE239542);人类胰岛scRNA-seq数据:GEO(GSE161465);人类COVID-19 BALF样本的scRNA-seq数据:GEO(GSE145926);小鼠胚胎发育第E9.5阶段的空间Stereo-seq数据从文件‘Mouse_embryo_all_stage.h5ad’中提取,文件托管在https://db.cngb.org/stomics/mosta/download/

启发

我们可以进一步发展结合多模态数据融合和深度学习的方法,来提升当前基于图形因果建模的FlowSig方法。我们可以引入多模态神经网络,将单细胞RNA测序、空间转录组学数据与其他类型的生物数据进行深度融合。这种方法能够通过学习各类数据之间的复杂非线性关系,更加全面地捕捉和表征细胞间的信号流动。结合生成对抗网络(GANs)或变分自编码器(VAEs)等生成模型,还可以生成更高质量的虚拟数据,以弥补实验数据中因样本量不足或数据缺失所导致的局限。这些生成模型能够学习并生成符合生物学规律的虚拟数据,使得推断模型在训练时能够更加准确地识别和模拟真实的生物系统。此外,考虑引入自监督学习和注意力机制,进一步增强模型在异质性生物数据上的鲁棒性和可解释性。自监督学习可以通过设计特定的预训练任务,充分利用未标注数据,提升模型的特征提取能力;注意力机制则能够动态聚焦于关键的生物学信号,使得模型在处理高维度数据时能更精确地识别出关键的调控路径。

合作和投稿事宜请联系微信或邮箱

合作请加微信:l2195711724  投稿邮箱:advancebc@163.com

AdvanceBC科研群聊微信扫码,备注好地区-单位(选填)-昵称,广告勿扰