ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
103 stars 30 forks source link

Nat. Cancer. | 构建TCGA癌症依赖性图谱 #5264

Closed ixxmu closed 1 month ago

ixxmu commented 1 month ago

https://mp.weixin.qq.com/s/Mbya1uhNZgYZHA6BektMLA

ixxmu commented 1 month ago

Nat. Cancer. | 构建TCGA癌症依赖性图谱 by AdvanceBC

2024年7月15日,来自Michael J. Flister和Zoltan Dezso研究团队的Xu Shi、Christos Gekas和Daniel Verduzco等人在Nature Cancer期刊上发表了一篇题为“Building a translational cancer dependency map for The Cancer Genome Atlas”的研究文章。研究团队利用机器学习技术构建了TCGA癌症依赖性图谱(TCGADEPMAP),解析了肿瘤的脆弱性以预测药物反应和疾病结果该研究还通过实验验证了一部分合成致死性对,包括PAPSS1/PAPSS2和CNOT7/CNOT8,展示了PAPSS1合成致死性与患者生存率的关联。此外,研究团队还开发了一个基于网络的应用程序,用于探索肿瘤的脆弱性。该文章为肿瘤依赖性研究和癌症治疗提供了新的视角和工具。

关键字:弹性网正则化、无监督聚类、基因相互作用评分

引言

   

癌症依赖性图谱(Cancer Dependency Map)在发现肿瘤脆弱性方面起到了关键作用,这些脆弱性一旦转化为临床上可用的药物靶点,便能显著提升癌症治疗的效果。《癌症基因组图谱》(The Cancer Genome Atlas, TCGA)是一个涵盖癌症发生过程中基因、表观基因和分子变化的综合数据库,尽管其广泛的遗传和分子数据对癌症研究贡献良多,但缺乏一种能将基因重要性转化为患者肿瘤依赖性的图谱。

目前,已有多项研究通过全基因组基因和化学扰动数据集(例如,DEPMAP和Project SCORE)结合深度表征的癌症模型(例如,Cancer Cell Line Encyclopedia)来探索肿瘤依赖性。然而,这些依赖性图谱的一个显著局限在于,其基于均质的细胞系模型,无法完全再现患者肿瘤的复杂病理环境。反之,TCGA患者数据虽然能提供更具临床相关性的观察,但由于缺乏功能性实验,难以直接转化为治疗策略。

为了克服上述挑战,研究团队开发了一种混合依赖性图谱(TCGADEPMAP),通过机器学习将DEPMAP的基因敲除数据转化为TCGA患者肿瘤的依赖性图谱。通过这种方法,研究团队不仅利用了DEPMAP的实验优势,还确保了TCGA的患者相关性。他们系统地分析了TCGADEPMAP,识别出可预测治疗反应和患者结局的肿瘤脆弱性,包括谱系依赖性、癌基因和合成致死性。研究团队还将TCGADEPMAP应用于其他患者相关特征,如药物反应和健康组织的基因耐受性,并开发了一个用户友好且免费开放的网络应用程序,以便研究人员和临床医生探索这些肿瘤脆弱性。

研究内容

   

这项研究构建了一个能够将基因重要性转化为患者肿瘤依赖性的转化依赖性图谱,从而揭示与治疗反应和疾病结果相关的肿瘤脆弱性。为了实现这一目标,研究团队首先收集了来自DEPMAP和TCGA的数据。DEPMAP提供了基因敲除实验的依赖性分数,而TCGA提供了患者肿瘤的转录组数据。研究团队对这些数据进行了预处理,包括对齐和标准化,以确保数据的一致性和可用性。

在数据预处理阶段,研究团队通过对比主成分分析(cPCA)将DEPMAP的转录组数据与TCGA的转录组数据进行比对,消除数据集之间的差异。随后,对比对后的数据进行了量化标准化处理,使得不同数据源的表达谱具有可比性。这样确保了从不同数据集提取的特征可以在同一模型中使用。

接下来,研究团队使用弹性网正则化(Elastic-Net Regularization)模型来构建基因依赖性预测模型。弹性网正则化结合了L1和L2正则化的优点,适用于高维数据的特征选择和模型构建。在特征选择过程中,研究团队从基因表达数据中选择了关键特征,这些特征包括基因表达水平、突变信息和拷贝数变化。然后,他们对7,260个基因分别训练了依赖性预测模型。在模型训练过程中,研究团队进行了十折交叉验证,通过多次训练和验证,评估模型的稳定性和泛化能力。

在建立了基因依赖性模型后,研究团队将这些模型应用于TCGA患者的转录组数据,以构建TCGADEPMAP。这个过程包括将对齐和标准化后的TCGA表达数据输入到DEPMAP模型中,计算每个患者样本的基因依赖性分数,生成详细的依赖性图谱。研究团队进一步使用无监督聚类和统计分析方法,探索这些依赖性图谱中与治疗反应和疾病结果相关的模式。

为了验证预测的合成致死性对,研究团队采用了多重CRISPR/Cas12a筛选技术。首先,他们设计并合成了多重CRISPR/Cas12a靶向引导RNA(gRNA),用于针对604对预测的合成致死性对进行敲除实验。然后,在14种不同的癌症细胞系中进行CRISPR筛选实验,通过测量双基因敲除对细胞活力的影响,评估每对基因的合成致死性。最终,通过基因相互作用评分和实验验证,确定了有效的合成致死性对,为未来的研究和治疗提供了有价值的靶点。

此外,为了方便研究人员和临床医生探索这些肿瘤依赖性图谱,研究团队开发了一个基于网络的交互式应用程序。该应用程序允许用户查询并可视化TCGADEPMAP、PDXEDEPMAP和GTEXDEPMAP中的数据,提供多种数据可视化工具,如热图、散点图和基因网络图,帮助用户理解和分析依赖性模式。用户还可以下载查询结果和图谱数据,用于进一步分析和研究。


研究结果

   

预测基因必需性建模

   

研究团队通过在DEPMAP数据库中的全基因组CRISPR-Cas9敲除筛选数据上,使用弹性网络正则化进行特征选择和建模,构建了转化依赖性图谱的预测模型(图1a)。DEPMAP癌症细胞模型的全基因组基因必需性评分(n=897)由CERES估算,该方法测量每个基因相对于各细胞系中常见必需和非必需基因效应大小分布的必需性。由于许多基因不影响细胞活力,弹性网络模型仅用于至少有五个依赖和非依赖细胞系的基因,其中包括DEPMAP中18,119个基因中的7,260个基因(40%)。除了基因必需性评分,弹性网络预测模型的输入变量还包括每个癌症细胞模型的全基因组基因表达、突变和拷贝数特征。

基于先前的证据,研究团队比较了仅使用RNA(仅表达)或结合突变和拷贝数特征(多组学)的两组弹性网络模型。最终,通过十折交叉验证选择了最佳拟合的弹性网络模型,以识别误差最小的模型,同时平衡预测性能和选择的特征数量。

通过十折交叉验证(Pearson’s r > 0.2;假发现率(FDR) < 1 × 10−3),比较了用于预测7,260个基因必需性的弹性网络模型(如上所述),考虑了仅表达或多组学数据作为输入变量。多组学模型中每个模型的特征分布偏高(3–510个特征,中位数为98)(图1b),相比之下,仅表达模型的特征分布较低(3–369个特征,中位数为80)(图1c),并且两者的性能随着每个模型的特征数量增加而改善(图1d,e)。交叉验证确认了1,966个仅表达模型和2,045个多组学模型,其中大多数交叉验证模型重叠(n=1,797)。在交叉验证模型中,目标基因的自我包含发生率在多组学数据集中(31%的模型)(图1f)和仅表达数据集中(26%的模型)(图1g)相似。大多数交叉验证模型(76%)在使用仅表达或多组学数据时表现相当(相关系数在0.05以内)。同样,103个注释的癌基因中的86个(84%)在交叉验证模型中使用仅表达或多组学数据集表现相似,例如HER2、BRAF和PIK3CA,少数显著例外包括NRAS、FLT3和ARNT(图1h)。这些数据表明,在大多数情况下,仅表达和多组学数据作为输入变量的基因必需性预测模型在检测癌症选择性脆弱性方面表现相当。

图1:DEPMAP 中基因必需性的预测建模

构建TCGADEPMAP

   

TCGADEPMAP基于仅表达的弹性网络模型构建,依据图1和其他研究的证据,大多数模型的性能与包含基因组特征的模型相当。此外,由于仅表达弹性网络模型未包含遗传信息,因此转置的必需性评分可以与TCGADEPMAP患者的遗传驱动因素相关联,这些因素可能在癌症细胞模型中未被检测到。最后,基于表达的必需性预测模型还可以扩展到无癌症研究(例如GTEX),这些研究没有体细胞突变和拷贝数变化。

如图2a所示,研究团队将DEPMAP依赖性的基于表达的预测模型转置到9,596名TCGA患者的转录组特征上,经过对齐以考虑细胞系和肿瘤活检样本之间的表达差异。转录对齐的重要性从1,966个交叉验证基因必需性模型与TCGA样本肿瘤纯度的强相关性中可见一斑(图2b)。为了克服这个问题,DEPMAP和TCGA的数据进行了分位数标准化,并通过对比主成分分析(cPCA)进行转换,这是一种检测两个数据集之间差异的相关方差成分的PCA推广。移除DEPMAP和TCGA转录组之间的前四个主成分(cPC1–4)显著降低了肿瘤依赖性与肿瘤纯度的相关性(图2b),并改善了基于表达的依赖模型的对齐(图2c,d)。基因必需性评分在对齐前后模型中变化最大的相关系数的富集分析显示,与基质相关的路径显著富集。综合这些数据表明,如果没有转录对齐,患者样本中预测的基因必需性与肿瘤纯度强相关,而考虑到这些依赖模型是使用无基质的培养癌细胞系生成的,这种情况不应出现。

为了进一步基准TCGADEPMAP的准确性,研究团队测试了患者肿瘤中的基因必需性是否能预测肿瘤谱系和癌基因依赖性,如细胞依赖性图谱中所报道的那样。预测的负值表示较高的预测必需性。TCGADEPMAP中的基因必需性无监督聚类揭示了显著的谱系依赖性(图2e),包括KRAS(图2f,g)和BRAF(图2h,i)等众所周知的癌基因。例如,KRAS必需性在KRAS突变的胃腺癌(STAD)、直肠腺癌(READ)、胰腺腺癌(PAAD)和结肠腺癌(COAD)谱系中显著更强(图2f,g),而BRAF必需性在BRAF突变的皮肤黑色素瘤(SKCM)中最强(图2h,i)。研究团队更广泛地比较了TCGA患者中具有或不具有功能获得(GOF)事件(突变或扩增)的癌基因必需性,使用来自Cosmic癌基因普查的100个交叉验证模型列表。在这100个癌基因中,共有85个基因必需性在具有GOF事件的患者中预测了更强的依赖性。为确保依赖性与突变之间的关联不是由于相同的潜在预测特征,比较了弹性网络模型在预测同一基因的必需性和体细胞突变方面的准确性。比较限制在具有>2%普遍性的交叉验证必需性和体细胞突变模型(n=891个模型)。弹性网络模型允许选择每个基因的必需性和突变的最具信息量的预测特征,因为最佳的必需性预测特征可能不是预测突变的最佳特征。两个模型集的曲线下面积(AUC)比较显示,转录组特征在预测基因必需性方面显著优于突变状态。考虑到必需性的仅表达模型未包含基因组特征,这些数据进一步表明,TCGADEPMAP中的必需性评分可以独立与患者肿瘤中的基因组特征相关联。结合证据表明,交叉验证的基因必需性模型能准确预测癌症谱系,这些数据表明,交叉验证的基因必需性模型在包括癌基因依赖性在内的广泛生物学背景下是准确且可解释的。

图2:构建转化依赖性图谱:TCGADEPMAP

TCGADEPMAP中的选择性依赖性

   

在基于细胞的图谱中,通过正态性似然比检验(NormLRT)来表征强选择性依赖性(SSDs),用于评估某一基因的重要性是否符合正态或t偏态分布(选择性)(图2j)。这一方法的优势在于能够对SSDs进行排序,而不受依赖机制(如谱系、基因和表达)的影响。为了比较癌症患者和细胞模型中的SSDs,研究团队分别在TCGADEPMAP和DEPMAP中应用了NormLRT对交叉验证的基因效应得分进行分析。大多数SSDs(NormLRT>100)在TCGADEPMAP和DEPMAP中相关性较好(r=0.56,P<0.0001),包括KRAS、BRAF、MYCN及其他已知的SSDs(图2j)。尽管大多数SSDs在两者之间表现出较好的相关性,但仍存在一些差异(图2j,k)。值得注意的是,一些可药物靶向的癌基因(如FLT3和PTPN11)在TCGADEPMAP患者中比在DEPMAP细胞系中更为显著,而在DEPMAP中一些显著的SSDs(如ATP6V0E1)在TCGADEPMAP中则不明显(图2j,k)。FLT3(自身表达)和ATP6V0E1(同源基因表达)在DEPMAP和TCGADEPMAP中顶级预测特征没有差异,但强依赖性得分的分布和流行率在患者和细胞系的不同谱系中有所不同。同样,PTPN11(SHP2)的依赖性在TCGADEPMAP中比在DEPMAP中更为显著(图2j,k),这在某些乳腺癌(BRCA)患者中表现为更高的基因重要性,而在BRCA细胞系中则不存在这种情况。对最依赖PTPN11的TCGADEPMAP BRCA患者中富集的遗传驱动因素的Fisher精确检验显示,TP53突变和HER2/ERBB2扩增富集,而FAT3缺失和GATA3突变则减少。特别是在HER2的情况下,这些数据与RAS通路抑制剂,包括SHP2抑制剂,在三维(3D)环境中比在二维(2D)环境中更有效的观察结果一致。因此,TCGADEPMAP中高度依赖PTPN11的BRCA患者可能是由于肿瘤的3D环境,而DEPMAP BRCA细胞系中具有相似遗传驱动因素的细胞由于2D培养环境而不依赖PTPN11。总之,这些数据表明,不同驱动因素在患者和细胞模型中的流行率和分布差异会影响SSDs的识别,这可以通过类似TCGADEPMAP的患者相关依赖性图谱来解决。

TCGADEPMAP中的临床表型和结果

   

转化肿瘤依赖性图谱的另一个优势是评估基因重要性对临床相关表型(如分子分型、治疗反应和患者结果)的影响。为了评估TCGADEPMAP在治疗相关患者分层中的实用性,研究团队对TCGADEPMAP BRCA队列的100个最具变异性的基因依赖性进行了无监督聚类分析(图3a)。100个依赖性特征(DEP100)在BRCA亚型分类中与已建立的PAM50特征表现相当(大多数亚型AUC>0.8),尽管PAM50和DEP100之间只有三个重叠基因(图3b)。DEP100依赖性分型预测ER阳性肿瘤中显著更高的ESR1重要性(图3c),以及HER2扩增肿瘤中更高的HER2重要性(图3d)。由于TCGA中治疗反应数据的有限可访问性,研究团队识别了9个具有准确模型和足够统计功效的肿瘤依赖性分子治疗的临床数据集(图3e-h)。在这9个数据集中,有7个依赖性模型显著预测临床反应,并且在预测治疗反应方面表现优于或相当于目标基因表达(图3e-h)。两个不显著的数据集也都表现出正确的趋势,且在更大队列中可能达到统计显著性。总之,这些数据证明了TCGADEPMAP在将依赖性与常见临床病理特征(如分子分型和治疗反应)相关联的生理相关性。将基因重要性与患者生存关联的能力是TCGADEPMAP的独特优势,这是基于细胞的依赖性图谱无法实现的。此外,由人类癌症的致癌通路和遗传驱动因素引起的结果可能无法仅通过基因表达捕捉到,而需要基因重要性的读数。为了测试这一可能性,研究团队对TCGADEPMAP中的1966个交叉验证基因重要性模型进行了与TCGA患者无进展生存期(PFI)的关联分析。在29个具有足够PFI分析功效的癌症谱系中,105个已知人类癌症的遗传驱动因素与TCGA患者的PFI显著相关,其中29个在至少4个癌症谱系中具有预后意义(图3i,j)。例如,药物靶向的癌基因STAT3的更强依赖性与六种不同癌症的疾病进展时间显著缩短相关(图3i,j)。同样,多种其他常见人类恶性肿瘤的遗传驱动因素也与显著更短的PFI相关,包括PAX5和PDGFRA(图3i,j)。先前研究通过患者活检中的表达分析,已将这两种蛋白质作为不良预后指标,这项研究显示,依赖这些癌基因与患者的较差预后相关。

图3:将 TCGADEPMAP 转化为临床相关表型和结果

TCGADEPMAP中的合成致死性

   

除了揭示谱系和癌基因依赖性外,DEPMAP显著扩展了潜在的合成致死性列表(基因丢失使肿瘤细胞对同一路径中功能冗余基因的抑制敏感);然而,DEPMAP的当前限制之一是现有的癌症细胞模型尚未完全再现TCGA患者的遗传和分子多样性。因此,研究团队评估了TCGADEPMAP中功能丧失(LOF)事件(有害突变或缺失)与合成致死性的预测情况。通过基因必需性特征和TCGADEPMAP中检测到的25,026个LOF事件的Lasso回归分析,得到了633,232个合成致死候选基因对(FDR < 0.01),数量过多,无法通过当前方法进行实验验证。为优先筛选合成致死候选基因,将基因互作评分与TCGADEPMAP中对应突变的互斥性相关联,缩小到28,609个候选基因对(FDR < 0.01)。应用多个附加标准进一步细化列表,通过富集具有相近进化距离的预测平行基因来优先考虑具有序列同源性的冗余功能候选基因。总的来说,这一方法识别了许多已知的合成致死对(如STAG1/STAG2, SMARCA2/SMARCA4和EP300/CREBBP)和以前未测试的合成致死候选基因,证明TCGADEPMAP在预测患者肿瘤活检中的LOF事件合成致死关系方面具有很高的效能。

在TCGADEPMAP中预测的合成致死性(n = 604对)通过多重CRISPR/AsCas12a筛选方法在五种癌症谱系的代表性细胞模型中进行了实验验证(图4a,b)。实验库中添加了额外的对照对(n = 261对),包括必需平行基因对和肿瘤抑制基因(TSGs)及其相互作用伙伴的非必需基因对。在五种癌症细胞模型中进行的初步试验筛选,在至少一个代表性细胞模型中实验验证了69个TCGADEPMAP合成致死对。在生成这些数据时,报告了一种兼容CRISPR/AsCas12a文库的增强型AsCas12a(enAsCas12a)酶,使初步筛选得以重复并扩展到16种癌症细胞模型。值得注意的是,初步筛选在五个共同细胞模型中的复现性很高(平均r = 0.69),并且与非必需对照相比,检测到必需对照和合成致死伙伴的显著减少(图4c)。除了新对,还在多个细胞系中复现了多个以前报道的合成致死对,证明多重CRISPR/Cas12a筛选平台在测试合成致死性方面的鲁棒性。值得注意的是,不同细胞模型和谱系对合成致死性的敏感性有所不同,表明在不同细胞环境中表现出的未知合成致死修饰因子的普遍存在,尚未完全理解。

在TCGADEPMAP预测的604个合成致死性中,78个(13%)在至少一个代表性细胞模型中得到了实验验证(图4d,e)。例如,CNOT7/8的双敲除(DKO)在筛选的14个细胞系中有11个表现出合成致死性(图4e),并在五个细胞模型中通过2D单层和3D球体测定的RNP DKO进行了独立验证(图4f,g)。同样,CNOT8在HT29细胞中诱导失活对缺失CNOT7的细胞在体外2D单层(图4h)和体内小鼠异种移植研究(图4i)中表现出合成致死性。值得注意的是,CNOT7在单敲除(KO)细胞中的丢失与CNOT8蛋白水平升高相一致,与先前观察到的CNOT7丢失增加CNOT8整合到CCR4–NOT复合物中的现象一致。同样,在NCI临床蛋白质组肿瘤分析联盟队列的肺腺癌(LUAD)和乳腺癌(BRCA)患者中,CNOT8蛋白水平与CNOT7拷贝数呈负相关。综合这些观察结果,证明了TCGADEPMAP在检测患者相关的合成致死机制方面的效能,可以通过独立验证并提供药物发现的治疗靶点。

图4:使用 TCGADEPMAP 转化人类癌症中的合成致死性

另一个通过TCGADEPMAP发现的是PAPSS1与PAPSS2及其邻近的肿瘤抑制基因PTEN共缺失的合成致死性,这些基因在TCGA患者肿瘤中频繁共缺失(43%共存),但在癌症细胞系中基本未受影响。PAPSS1/PAPSS2是合成3'-磷酸腺苷-5'-磷酸硫酸(PAPS)所必需的功能冗余酶,PAPS是所有磺化反应所必需的。为验证这一假设,研究团队在H1299球体中靶向PAPSS1/PAPSS2,通过流式细胞术测量球体生长和细胞表面硫酸乙酰肝素(HSPG)链的硫酸化水平。证实了CRISPR/Cas12筛选数据(图5a),PAPSS1和PAPSS2的双重丢失显著降低了H1299球体的生长(图5b),与HSPG硫酸化的丢失一致。同样,靶向内源性缺乏PAPSS2和PTEN的UMUC3细胞中的PAPSS1也显著减少了HSPG硫酸化,并显著减少了球体生长,这可以通过添加外源性硫酸乙酰肝素来挽救(图5d)。最后,PAPSS1/PAPSS2合成致死性在体内得到验证,缺乏PAPSS1和PAPSS2的UMUC3肿瘤相比仅缺乏PAPSS2的对照肿瘤,表现出显著的肿瘤生长减少(图5e)。综上所述,这些数据表明,TCGADEPMAP等转化依赖性图谱是揭示癌症模型中先前未充分代表的合成相互作用的强大工具,可能与患者相关。

TCGADEPMAP独特之处在于能够揭示与患者预后相关的潜在合成致死性,使得能够优先考虑与最差预后相关的实验验证的合成致死性,这些合成致死性如果可药物化,可能具有最大的临床影响。为了测试这一可能性,使用Cox对数秩检验评估与TCGADEPMAP预测的基因必需性和LOF事件(突变、缺失或两者)的假定合成致死伙伴相关的TCGA患者的总体生存率(OS)。在控制肿瘤谱系后,TCGADEPMAP中的PAPSS1依赖性与PAPSS2缺失患者的OS显著较差相关(风险比(HR)= 0.61,P = 0.0004),表明PAPSS1是具有潜在高转化影响的合成致死靶点。综上所述,这些数据表明,转化依赖性图谱能够实现合成致死性的发现、验证和转化。

图5:TCGADEPMAP 检测到的新型合成致死性基因对 PAPSS1 和 PAPSS2

构建PDXEDEPMAP

   

除了构建TCGADEPMAP,研究团队还采用类似的方法,利用PDX百科全书(PDXE)生成了一个正交转化依赖性图谱(PDXEDEPMAP)(图6a)。PDXEDEPMAP通过将交叉验证的1966个表达模型从DEPMAP转移到PDXE(191个肿瘤)中,并使用对齐的PDXE全基因组表达谱组装而成。PDXEDEPMAP中五个代表性谱系的基因重要性无监督聚类证实,谱系是基因依赖性的关键驱动因素,这与TCGADEPMAP中的观察结果一致(图6b,图2e)。PDXEDEPMAP还检测到KRAS突变的胰腺导管癌(PDAC)和结直肠癌(CRC)谱系中显著更强的KRAS重要性(图6c,d),而BRAF突变的皮肤黑色素瘤(CM)中BRAF重要性最强(图6e,f)。这些数据表明,PDXEDEPMAP在检测PDX模型中的基因重要性信号方面与TCGADEPMAP相当。

除了对TCGADEPMAP的正交验证,PDXEDEPMAP的一个独特优势是能够评估基因重要性在五种癌症谱系和15种分子疗法中的治疗反应(图6g,h)。为了测试基因重要性预测对应靶向治疗反应的能力,研究团队将PDX负担从基线到实验终点的变化与目标基因重要性相关联。结果显示,80%的药物(15种中有12种)与目标基因的预测重要性显著相关(P<0.05)。例如,PDXEDEPMAP中的曲妥珠单抗反应由HER2依赖性强烈预测(R=0.4849, P=0.002, AUC=0.75),与HER2扩增的BRCA患者中曲妥珠单抗反应的预测能力一致(图3e)。其他例子如厄洛替尼(R=0.4937, P=0.01, AUC=0.78)和西妥昔单抗(R=0.2293, P=0.06, AUC=0.83),这些药物靶向同一基因(EGFR),为探索治疗抵抗的依赖机制提供了机会。PDX对厄洛替尼或西妥昔单抗的反应比较显示了两个共同通路的依赖性:SWI/SNF复合物(SMARCA2和SMARCD1)和蛋白质运输(EMC4, EMC6, VPS39和MAPK14)(图6g,h)。值得注意的是,这两个通路的成分都与EGFR抑制剂的抵抗性有关,这表明靶向这些依赖性可能会改善患者的预后。总之,这些数据表明基因重要性能够预测治疗反应,并强调了PDX建模在与患者相关的临床结果中的可转化性。

图6:构建患者衍生异种移植模型的转化依赖性图谱:PDXEDEPMAP

在GTEXDEPMAP中转化基因耐受性

   

这项研究的最后一个目标是定义健康组织中的基因重要性,这将为优先考虑具有最佳预测耐受性的肿瘤依赖性提供资源。为了实现这一目标,研究团队将DEPMAP中的表达依赖性模型转置到GTEX(GTEXDEPMAP),GTEX是一个由健康供体的正常组织深度表型组成的汇编(图7a)。为了评估GTEXDEPMAP对低耐受性依赖性的敏感性,研究团队比较了具有肝脏和血液毒性的药物的分子靶标在GTEXDEPMAP中的表现。结果显示,肝脏和血液中的平均重要性高于其他正常组织(图7b)。同样,对1966个交叉验证的基因重要性模型进行无监督聚类显示,健康器官中存在强烈的组织来源依赖性(图7c)。这些数据表明,GTEXDEPMAP对已知毒性敏感,这些毒性聚集在不同的健康器官类型周围。

将TCGADEPMAP中已知的可药物靶向癌基因的重要性得分与GTEXDEPMAP进行比较,发现恶性组织中的依赖性远高于健康组织。例如,KRAS和BRAF的重要性似乎同时依赖于谱系和遗传驱动因素,因为在GTEXDEPMAP中,健康组织的起源受到的影响显著低于TCGADEPMAP(图7d,e)。同样,对于其他在癌症患者中获批的治疗靶点癌基因(如HER2扩增的BRCA),也观察到了类似的情况。相反,对于在临床试验中尚未成功的分子疗法,恶性肿瘤和健康组织的预测重要性分离较小。为了细化在肿瘤疗效和健康组织耐受性之间显著差异的致癌通路列表,研究团队比较了所有基因和组织中的依赖性(TCGADEPMAP)和耐受性(GTEXDEPMAP)得分(图7f)。对肿瘤依赖性最强而健康组织耐受性最弱的通路分析显示,多种致癌通路和病理生理过程的富集,包括氧化磷酸化(P=5.8×10^-11)和线粒体翻译(P=2.9×10^-20)通路在LUAD中相比于健康肺组织有所富集(图7g)。综合来看,这些观察结果表明,在驱动突变的背景下,健康组织的低重要性预测能够识别具有可接受耐受性的有效药物靶点。

图7:构建正常组织中的转化依赖性图谱:GTEXDEPMAP

可视化转化依赖性的工具

   

为便于数据可视化,研究团队提供了一个交互式网络应用(https://xushiabbvie.shinyapps.io/TDtool/),用于探索TCGADEPMAP、PDXEDEPMAP和GTEXDEPMAP中的数据。

结论与前景

   

癌症依赖图谱加速了肿瘤脆弱性的发现,但将这些发现转化为预测患者潜在药物靶点的治疗窗口仍具挑战性。研究团队使用机器学习构建了患者肿瘤和正常组织活检中的转化依赖图谱,使肿瘤脆弱性在药物靶点的疗效、耐受性和结果的背景下进行研究。转化依赖图谱使用弹性网络模型的转录组特征来预测基因重要性。由于预测模型未包含基因组特征,依赖评分可以独立测试与患者肿瘤中遗传驱动因素的关联。此外,这些仅基于表达的基因重要性模型可应用于健康组织,这些组织中不存在恶性组织中观察到的显著体细胞改变。为了展示如何整合这些数据来预测靶点的治疗窗口,研究团队展示了KRAS和BRAF在患者肿瘤中的依赖性在具有功能获得(GOF)突变的患者肿瘤中升高,而在缺乏这些驱动突变的正常组织活检中则不明显。综合来看,这些新的转化依赖图谱为基因重要性提供了独特且临床相关的视角,这是传统基于细胞的依赖图谱无法实现的。最后,研究团队在一个用户友好且互动的网络应用中免费提供了这些依赖图谱,以便探索和可视化数据。

在研究完成期间,Chiu等人采用了补充方法,通过使用深度学习和TCGA患者及DEPMAP细胞系的基因组、表观基因组和转录组特征构建了一个转化依赖图谱(DeepDEP)。研究团队使用了表达数据的弹性网络正则化回归模型来预测基因重要性和耐受性,这些基于表达的模型在恶性组织(TCGADEPMAP和PDXEDEPMAP)和非恶性组织(GTEXDEPMAP)中的表现与多组学模型相当。DeepDEP的作者也指出,使用仅表达数据的简化深度学习模型(Exp-DeepDEP)与DeepDEP的表现相当,表明两种方法都主要由表达数据主导。在缺乏其他真值的情况下,研究团队通过全癌症谱系和BRCA亚型比较了TCGADEPMAP和DeepDEP的预测肿瘤依赖性,结果显示,TCGADEPMAP的预测依赖性在识别癌症谱系和BRCA亚型方面与DeepDEP相当。因此,整体数据表明,TCGADEPMAP、PDXEDEPMAP和GTEXDEPMAP背后的弹性网络模型表现良好,与DeepDEP相当。随着更多研究的出现,进一步深入的依赖性翻译方法评估,包括检测遗传驱动因素、合成致死性和其他患者相关特征的能力是必要的。

转化依赖图谱的一个优势是能够再现患者肿瘤的背景、治疗反应和许多疾病结果的方面。符合组织来源主导癌症分子特征的观察结果,TCGADEPMAP和PDXEDEPMAP显示肿瘤脆弱性与疾病谱系和亚型密切相关。致癌依赖性还预测了TCGADEPMAP和PDXEDEPMAP中的分子靶向治疗反应,这与针对患者中致癌驱动因素的分子治疗的反应率一致。总共有85%的致癌依赖性与患者肿瘤中依赖性的增加相关,其中28%与无进展生存期(PFI)相关,包括一些预测较好或较差结果的依赖性,这取决于癌症谱系。这些数据与观察到的约10%的癌症驱动基因在不同肿瘤背景下具有致癌和抑癌特征的证据一致。一些致癌依赖性在患者和细胞模型之间也有所不同,包括FLT3、ATPV6V0E1和PTPN11。这些差异有些可能归因于SSDs的潜在驱动因素在不同队列中的分布(如FLT3和ATPV6V0E1),而其他差异可能归因于不同的病理生理背景,如完整肿瘤的3D环境与培养细胞的2D环境(如PTPN11)。总之,这些数据强调了在与患者相关的背景下解释基因重要性的复杂性,未来的研究有必要进一步翻译影响患者结果的新肿瘤依赖性的潜在机制。

TCGADEPMAP检测到多个已知的合成致死性(如STAG1/STAG2、SMARCA2/SMARCA4和EP300/CREBBP),以及一些较少表征的合成致死性(如CNOT7/CNOT78和PAPSS1/PAPSS2)。合成致死相互作用在不同癌症细胞模型中的测试结果差异很大,这表明目前可用的模型不足以解释所有患者相关的背景。然而,广泛共享的合成致死性(CNOT7/CNOT78)和更具选择性的合成致死性(PAPSS1/PAPSS2)在体外和体内得到了验证。CNOT7/CNOT78是CCR4–NOT复合物的同源亚单位,该复合物介导信使RNA稳定性,符合观察到两者缺失广泛合成致死的结果。PAPSS1/PAPSS2是PAPS的同源合酶,PAPS是磺化反应所需的。研究团队假设PAPSS2的缺失可能是由于其靠近PTEN,这是患者肿瘤中附带缺失的例子。这个观察结果通过缺乏PAPSS2和PTEN的UMUC3细胞中PAPSS1的合成致死相互作用得到了证实,这些细胞不能磺化蛋白质。值得注意的是,TCGADEPMAP独特地检测并关联合成致死机制与患者结果的能力显示,具有内源性PAPSS2缺失和预测合成致死性的患者的总生存期(OS)更差。因此,这些数据综合展示了转化依赖图谱的优势,这些图谱紧密匹配完整患者肿瘤的病理生理背景,并利用多样的患者基因组数据集来识别临床相关的机制。

思考与挑战

   

这项研究的一个独特方面是能够系统地比较TCGADEPMAP中与体细胞突变相关的基因重要性与GTEXDEPMAP中健康组织来源的耐受性特征。系统地扩展这一分析,覆盖TCGADEPMAP和GTEXDEPMAP中的所有基因重要性模型,揭示了预测耐受性窗口的广泛变异,暗示其他具有强遗传驱动因素的依赖性存在,这些依赖性可能作为治疗靶点更具耐受性。然而,在解释这些数据时,研究团队建议谨慎行事,因为通过比较TCGADEPMAP和GTEXDEPMAP中组织来源的基因重要性预测的耐受性窗口可能还未完全捕捉到影响临床药物开发的其他剂量限制性毒性。因此,未来在健康组织中建模基因重要性的努力应扩展到整合多器官生理路径和系统中的耐受性信号。

这项研究提出的转化依赖图谱提供了关于患者肿瘤和健康组织中基因重要性和耐受性的见解。这些图谱准确地将依赖性转化为患者的能力依赖于从基于细胞的图谱构建预测模型的能力,这仍处于早期阶段,预计需要20倍的数据来全面预测基因重要性。此外,基于细胞的依赖性在2D和3D环境之间的差异以及肿瘤微环境的相互作用表明,基因重要性是情境性的,需要更相关的模型,如类器官。同样,准确解释转化依赖性也可能需要更深入地理解患者肿瘤中缺乏的克隆异质性。为了充分发挥转化依赖性图谱的潜力,还需要扩展患者基因组数据集的目录,以捕捉疾病进展的各个阶段,包括肿瘤发生、转移和治疗抵抗。此外,随着精确癌症临床试验的不断扩展(如MSK-IMPACT),通过测试分子治疗与预测靶点重要性结果来细化转化依赖图谱将变得越来越可能。健康组织中的转化“耐受性”图谱(如GTEXDEPMAP)的实用性尚未完全探索,可能需要进一步改进以更好地捕捉影响药物开发的剂量限制性毒性。为此,研究团队推测,通过将CRISPR扰动与单细胞RNA测序配对,在正常细胞类型中建模基因耐受性可能是最佳方法,以广泛捕捉维持健康组织稳态所需的路径变化。最终,研究团队推测,在患者中预测依赖性和耐受性的建模将通过预先优先考虑具有最佳治疗指数(高依赖性和耐受性)的靶点来增加药物发现的成功率。

链接

   

引文:Shi, X., Gekas, C., Verduzco, D. et al. Building a translational cancer dependency map for The Cancer Genome Atlas. Nat Cancer (2024).

如果有帮助记得关注+收藏~

原文链接:https://doi.org/10.1038/s43018-024-00789-y

代码链接:https://github.com/xushiabbvie/TDtool

启发

   

这篇文章的研究启发我们,未来的癌症研究可以通过结合更先进的多组学数据整合技术、深度学习算法和个性化医学方法,进一步提升肿瘤依赖性解析和治疗预测的精度和实用性。首先,多组学数据整合技术不仅包括基因组和转录组数据,还应结合表观基因组、代谢组和蛋白质组数据,通过全面描绘肿瘤细胞的生物学特性,识别出更多具有临床意义的依赖性特征。其次,深度学习算法,如卷积神经网络(CNN)和图神经网络(GNN),在处理复杂和大规模数据集方面具有显著优势,可以更准确地预测基因依赖性和药物反应。这些算法可以自动提取数据中的深层次特征,识别出传统机器学习方法难以捕捉的复杂模式。通过训练更大规模和多样化的数据集,深度学习模型能够提高预测的泛化能力和准确性。最后,结合个性化医学方法,将患者的基因组、临床数据和生活习惯等个性化信息纳入模型,能够提供更精准的治疗建议和预后预测。这样的综合方法不仅能够更好地揭示肿瘤依赖性的复杂机制,还能为每个患者量身定制最有效的治疗方案,从而显著改善治疗效果和患者生存率。这些方法之所以能取得效果,是因为它们能够捕捉和利用更多维度和更精细的生物学信息,使得预测模型更具针对性和精准性,最终实现更有效的癌症治疗和管理。

合作和投稿事宜请联系微信或邮箱

合作请加微信:l2195711724  投稿邮箱:advancebc@163.com

AdvanceBC科研群聊微信扫码,备注好地区-单位(选填)-昵称,广告勿扰

ixxmu commented 1 month ago

Nat. Cancer. | 构建TCGA癌症依赖性图谱 by AdvanceBC

2024年7月15日,来自Michael J. Flister和Zoltan Dezso研究团队的Xu Shi、Christos Gekas和Daniel Verduzco等人在Nature Cancer期刊上发表了一篇题为“Building a translational cancer dependency map for The Cancer Genome Atlas”的研究文章。研究团队利用机器学习技术构建了TCGA癌症依赖性图谱(TCGADEPMAP),解析了肿瘤的脆弱性以预测药物反应和疾病结果该研究还通过实验验证了一部分合成致死性对,包括PAPSS1/PAPSS2和CNOT7/CNOT8,展示了PAPSS1合成致死性与患者生存率的关联。此外,研究团队还开发了一个基于网络的应用程序,用于探索肿瘤的脆弱性。该文章为肿瘤依赖性研究和癌症治疗提供了新的视角和工具。

关键字:弹性网正则化、无监督聚类、基因相互作用评分

引言

   

癌症依赖性图谱(Cancer Dependency Map)在发现肿瘤脆弱性方面起到了关键作用,这些脆弱性一旦转化为临床上可用的药物靶点,便能显著提升癌症治疗的效果。《癌症基因组图谱》(The Cancer Genome Atlas, TCGA)是一个涵盖癌症发生过程中基因、表观基因和分子变化的综合数据库,尽管其广泛的遗传和分子数据对癌症研究贡献良多,但缺乏一种能将基因重要性转化为患者肿瘤依赖性的图谱。

目前,已有多项研究通过全基因组基因和化学扰动数据集(例如,DEPMAP和Project SCORE)结合深度表征的癌症模型(例如,Cancer Cell Line Encyclopedia)来探索肿瘤依赖性。然而,这些依赖性图谱的一个显著局限在于,其基于均质的细胞系模型,无法完全再现患者肿瘤的复杂病理环境。反之,TCGA患者数据虽然能提供更具临床相关性的观察,但由于缺乏功能性实验,难以直接转化为治疗策略。

为了克服上述挑战,研究团队开发了一种混合依赖性图谱(TCGADEPMAP),通过机器学习将DEPMAP的基因敲除数据转化为TCGA患者肿瘤的依赖性图谱。通过这种方法,研究团队不仅利用了DEPMAP的实验优势,还确保了TCGA的患者相关性。他们系统地分析了TCGADEPMAP,识别出可预测治疗反应和患者结局的肿瘤脆弱性,包括谱系依赖性、癌基因和合成致死性。研究团队还将TCGADEPMAP应用于其他患者相关特征,如药物反应和健康组织的基因耐受性,并开发了一个用户友好且免费开放的网络应用程序,以便研究人员和临床医生探索这些肿瘤脆弱性。

研究内容

   

这项研究构建了一个能够将基因重要性转化为患者肿瘤依赖性的转化依赖性图谱,从而揭示与治疗反应和疾病结果相关的肿瘤脆弱性。为了实现这一目标,研究团队首先收集了来自DEPMAP和TCGA的数据。DEPMAP提供了基因敲除实验的依赖性分数,而TCGA提供了患者肿瘤的转录组数据。研究团队对这些数据进行了预处理,包括对齐和标准化,以确保数据的一致性和可用性。

在数据预处理阶段,研究团队通过对比主成分分析(cPCA)将DEPMAP的转录组数据与TCGA的转录组数据进行比对,消除数据集之间的差异。随后,对比对后的数据进行了量化标准化处理,使得不同数据源的表达谱具有可比性。这样确保了从不同数据集提取的特征可以在同一模型中使用。

接下来,研究团队使用弹性网正则化(Elastic-Net Regularization)模型来构建基因依赖性预测模型。弹性网正则化结合了L1和L2正则化的优点,适用于高维数据的特征选择和模型构建。在特征选择过程中,研究团队从基因表达数据中选择了关键特征,这些特征包括基因表达水平、突变信息和拷贝数变化。然后,他们对7,260个基因分别训练了依赖性预测模型。在模型训练过程中,研究团队进行了十折交叉验证,通过多次训练和验证,评估模型的稳定性和泛化能力。

在建立了基因依赖性模型后,研究团队将这些模型应用于TCGA患者的转录组数据,以构建TCGADEPMAP。这个过程包括将对齐和标准化后的TCGA表达数据输入到DEPMAP模型中,计算每个患者样本的基因依赖性分数,生成详细的依赖性图谱。研究团队进一步使用无监督聚类和统计分析方法,探索这些依赖性图谱中与治疗反应和疾病结果相关的模式。

为了验证预测的合成致死性对,研究团队采用了多重CRISPR/Cas12a筛选技术。首先,他们设计并合成了多重CRISPR/Cas12a靶向引导RNA(gRNA),用于针对604对预测的合成致死性对进行敲除实验。然后,在14种不同的癌症细胞系中进行CRISPR筛选实验,通过测量双基因敲除对细胞活力的影响,评估每对基因的合成致死性。最终,通过基因相互作用评分和实验验证,确定了有效的合成致死性对,为未来的研究和治疗提供了有价值的靶点。

此外,为了方便研究人员和临床医生探索这些肿瘤依赖性图谱,研究团队开发了一个基于网络的交互式应用程序。该应用程序允许用户查询并可视化TCGADEPMAP、PDXEDEPMAP和GTEXDEPMAP中的数据,提供多种数据可视化工具,如热图、散点图和基因网络图,帮助用户理解和分析依赖性模式。用户还可以下载查询结果和图谱数据,用于进一步分析和研究。


研究结果

   

预测基因必需性建模

   

研究团队通过在DEPMAP数据库中的全基因组CRISPR-Cas9敲除筛选数据上,使用弹性网络正则化进行特征选择和建模,构建了转化依赖性图谱的预测模型(图1a)。DEPMAP癌症细胞模型的全基因组基因必需性评分(n=897)由CERES估算,该方法测量每个基因相对于各细胞系中常见必需和非必需基因效应大小分布的必需性。由于许多基因不影响细胞活力,弹性网络模型仅用于至少有五个依赖和非依赖细胞系的基因,其中包括DEPMAP中18,119个基因中的7,260个基因(40%)。除了基因必需性评分,弹性网络预测模型的输入变量还包括每个癌症细胞模型的全基因组基因表达、突变和拷贝数特征。

基于先前的证据,研究团队比较了仅使用RNA(仅表达)或结合突变和拷贝数特征(多组学)的两组弹性网络模型。最终,通过十折交叉验证选择了最佳拟合的弹性网络模型,以识别误差最小的模型,同时平衡预测性能和选择的特征数量。

通过十折交叉验证(Pearson’s r > 0.2;假发现率(FDR) < 1 × 10−3),比较了用于预测7,260个基因必需性的弹性网络模型(如上所述),考虑了仅表达或多组学数据作为输入变量。多组学模型中每个模型的特征分布偏高(3–510个特征,中位数为98)(图1b),相比之下,仅表达模型的特征分布较低(3–369个特征,中位数为80)(图1c),并且两者的性能随着每个模型的特征数量增加而改善(图1d,e)。交叉验证确认了1,966个仅表达模型和2,045个多组学模型,其中大多数交叉验证模型重叠(n=1,797)。在交叉验证模型中,目标基因的自我包含发生率在多组学数据集中(31%的模型)(图1f)和仅表达数据集中(26%的模型)(图1g)相似。大多数交叉验证模型(76%)在使用仅表达或多组学数据时表现相当(相关系数在0.05以内)。同样,103个注释的癌基因中的86个(84%)在交叉验证模型中使用仅表达或多组学数据集表现相似,例如HER2、BRAF和PIK3CA,少数显著例外包括NRAS、FLT3和ARNT(图1h)。这些数据表明,在大多数情况下,仅表达和多组学数据作为输入变量的基因必需性预测模型在检测癌症选择性脆弱性方面表现相当。

图1:DEPMAP 中基因必需性的预测建模

构建TCGADEPMAP

   

TCGADEPMAP基于仅表达的弹性网络模型构建,依据图1和其他研究的证据,大多数模型的性能与包含基因组特征的模型相当。此外,由于仅表达弹性网络模型未包含遗传信息,因此转置的必需性评分可以与TCGADEPMAP患者的遗传驱动因素相关联,这些因素可能在癌症细胞模型中未被检测到。最后,基于表达的必需性预测模型还可以扩展到无癌症研究(例如GTEX),这些研究没有体细胞突变和拷贝数变化。

如图2a所示,研究团队将DEPMAP依赖性的基于表达的预测模型转置到9,596名TCGA患者的转录组特征上,经过对齐以考虑细胞系和肿瘤活检样本之间的表达差异。转录对齐的重要性从1,966个交叉验证基因必需性模型与TCGA样本肿瘤纯度的强相关性中可见一斑(图2b)。为了克服这个问题,DEPMAP和TCGA的数据进行了分位数标准化,并通过对比主成分分析(cPCA)进行转换,这是一种检测两个数据集之间差异的相关方差成分的PCA推广。移除DEPMAP和TCGA转录组之间的前四个主成分(cPC1–4)显著降低了肿瘤依赖性与肿瘤纯度的相关性(图2b),并改善了基于表达的依赖模型的对齐(图2c,d)。基因必需性评分在对齐前后模型中变化最大的相关系数的富集分析显示,与基质相关的路径显著富集。综合这些数据表明,如果没有转录对齐,患者样本中预测的基因必需性与肿瘤纯度强相关,而考虑到这些依赖模型是使用无基质的培养癌细胞系生成的,这种情况不应出现。

为了进一步基准TCGADEPMAP的准确性,研究团队测试了患者肿瘤中的基因必需性是否能预测肿瘤谱系和癌基因依赖性,如细胞依赖性图谱中所报道的那样。预测的负值表示较高的预测必需性。TCGADEPMAP中的基因必需性无监督聚类揭示了显著的谱系依赖性(图2e),包括KRAS(图2f,g)和BRAF(图2h,i)等众所周知的癌基因。例如,KRAS必需性在KRAS突变的胃腺癌(STAD)、直肠腺癌(READ)、胰腺腺癌(PAAD)和结肠腺癌(COAD)谱系中显著更强(图2f,g),而BRAF必需性在BRAF突变的皮肤黑色素瘤(SKCM)中最强(图2h,i)。研究团队更广泛地比较了TCGA患者中具有或不具有功能获得(GOF)事件(突变或扩增)的癌基因必需性,使用来自Cosmic癌基因普查的100个交叉验证模型列表。在这100个癌基因中,共有85个基因必需性在具有GOF事件的患者中预测了更强的依赖性。为确保依赖性与突变之间的关联不是由于相同的潜在预测特征,比较了弹性网络模型在预测同一基因的必需性和体细胞突变方面的准确性。比较限制在具有>2%普遍性的交叉验证必需性和体细胞突变模型(n=891个模型)。弹性网络模型允许选择每个基因的必需性和突变的最具信息量的预测特征,因为最佳的必需性预测特征可能不是预测突变的最佳特征。两个模型集的曲线下面积(AUC)比较显示,转录组特征在预测基因必需性方面显著优于突变状态。考虑到必需性的仅表达模型未包含基因组特征,这些数据进一步表明,TCGADEPMAP中的必需性评分可以独立与患者肿瘤中的基因组特征相关联。结合证据表明,交叉验证的基因必需性模型能准确预测癌症谱系,这些数据表明,交叉验证的基因必需性模型在包括癌基因依赖性在内的广泛生物学背景下是准确且可解释的。

图2:构建转化依赖性图谱:TCGADEPMAP

TCGADEPMAP中的选择性依赖性

   

在基于细胞的图谱中,通过正态性似然比检验(NormLRT)来表征强选择性依赖性(SSDs),用于评估某一基因的重要性是否符合正态或t偏态分布(选择性)(图2j)。这一方法的优势在于能够对SSDs进行排序,而不受依赖机制(如谱系、基因和表达)的影响。为了比较癌症患者和细胞模型中的SSDs,研究团队分别在TCGADEPMAP和DEPMAP中应用了NormLRT对交叉验证的基因效应得分进行分析。大多数SSDs(NormLRT>100)在TCGADEPMAP和DEPMAP中相关性较好(r=0.56,P<0.0001),包括KRAS、BRAF、MYCN及其他已知的SSDs(图2j)。尽管大多数SSDs在两者之间表现出较好的相关性,但仍存在一些差异(图2j,k)。值得注意的是,一些可药物靶向的癌基因(如FLT3和PTPN11)在TCGADEPMAP患者中比在DEPMAP细胞系中更为显著,而在DEPMAP中一些显著的SSDs(如ATP6V0E1)在TCGADEPMAP中则不明显(图2j,k)。FLT3(自身表达)和ATP6V0E1(同源基因表达)在DEPMAP和TCGADEPMAP中顶级预测特征没有差异,但强依赖性得分的分布和流行率在患者和细胞系的不同谱系中有所不同。同样,PTPN11(SHP2)的依赖性在TCGADEPMAP中比在DEPMAP中更为显著(图2j,k),这在某些乳腺癌(BRCA)患者中表现为更高的基因重要性,而在BRCA细胞系中则不存在这种情况。对最依赖PTPN11的TCGADEPMAP BRCA患者中富集的遗传驱动因素的Fisher精确检验显示,TP53突变和HER2/ERBB2扩增富集,而FAT3缺失和GATA3突变则减少。特别是在HER2的情况下,这些数据与RAS通路抑制剂,包括SHP2抑制剂,在三维(3D)环境中比在二维(2D)环境中更有效的观察结果一致。因此,TCGADEPMAP中高度依赖PTPN11的BRCA患者可能是由于肿瘤的3D环境,而DEPMAP BRCA细胞系中具有相似遗传驱动因素的细胞由于2D培养环境而不依赖PTPN11。总之,这些数据表明,不同驱动因素在患者和细胞模型中的流行率和分布差异会影响SSDs的识别,这可以通过类似TCGADEPMAP的患者相关依赖性图谱来解决。

TCGADEPMAP中的临床表型和结果

   

转化肿瘤依赖性图谱的另一个优势是评估基因重要性对临床相关表型(如分子分型、治疗反应和患者结果)的影响。为了评估TCGADEPMAP在治疗相关患者分层中的实用性,研究团队对TCGADEPMAP BRCA队列的100个最具变异性的基因依赖性进行了无监督聚类分析(图3a)。100个依赖性特征(DEP100)在BRCA亚型分类中与已建立的PAM50特征表现相当(大多数亚型AUC>0.8),尽管PAM50和DEP100之间只有三个重叠基因(图3b)。DEP100依赖性分型预测ER阳性肿瘤中显著更高的ESR1重要性(图3c),以及HER2扩增肿瘤中更高的HER2重要性(图3d)。由于TCGA中治疗反应数据的有限可访问性,研究团队识别了9个具有准确模型和足够统计功效的肿瘤依赖性分子治疗的临床数据集(图3e-h)。在这9个数据集中,有7个依赖性模型显著预测临床反应,并且在预测治疗反应方面表现优于或相当于目标基因表达(图3e-h)。两个不显著的数据集也都表现出正确的趋势,且在更大队列中可能达到统计显著性。总之,这些数据证明了TCGADEPMAP在将依赖性与常见临床病理特征(如分子分型和治疗反应)相关联的生理相关性。将基因重要性与患者生存关联的能力是TCGADEPMAP的独特优势,这是基于细胞的依赖性图谱无法实现的。此外,由人类癌症的致癌通路和遗传驱动因素引起的结果可能无法仅通过基因表达捕捉到,而需要基因重要性的读数。为了测试这一可能性,研究团队对TCGADEPMAP中的1966个交叉验证基因重要性模型进行了与TCGA患者无进展生存期(PFI)的关联分析。在29个具有足够PFI分析功效的癌症谱系中,105个已知人类癌症的遗传驱动因素与TCGA患者的PFI显著相关,其中29个在至少4个癌症谱系中具有预后意义(图3i,j)。例如,药物靶向的癌基因STAT3的更强依赖性与六种不同癌症的疾病进展时间显著缩短相关(图3i,j)。同样,多种其他常见人类恶性肿瘤的遗传驱动因素也与显著更短的PFI相关,包括PAX5和PDGFRA(图3i,j)。先前研究通过患者活检中的表达分析,已将这两种蛋白质作为不良预后指标,这项研究显示,依赖这些癌基因与患者的较差预后相关。

图3:将 TCGADEPMAP 转化为临床相关表型和结果

TCGADEPMAP中的合成致死性

   

除了揭示谱系和癌基因依赖性外,DEPMAP显著扩展了潜在的合成致死性列表(基因丢失使肿瘤细胞对同一路径中功能冗余基因的抑制敏感);然而,DEPMAP的当前限制之一是现有的癌症细胞模型尚未完全再现TCGA患者的遗传和分子多样性。因此,研究团队评估了TCGADEPMAP中功能丧失(LOF)事件(有害突变或缺失)与合成致死性的预测情况。通过基因必需性特征和TCGADEPMAP中检测到的25,026个LOF事件的Lasso回归分析,得到了633,232个合成致死候选基因对(FDR < 0.01),数量过多,无法通过当前方法进行实验验证。为优先筛选合成致死候选基因,将基因互作评分与TCGADEPMAP中对应突变的互斥性相关联,缩小到28,609个候选基因对(FDR < 0.01)。应用多个附加标准进一步细化列表,通过富集具有相近进化距离的预测平行基因来优先考虑具有序列同源性的冗余功能候选基因。总的来说,这一方法识别了许多已知的合成致死对(如STAG1/STAG2, SMARCA2/SMARCA4和EP300/CREBBP)和以前未测试的合成致死候选基因,证明TCGADEPMAP在预测患者肿瘤活检中的LOF事件合成致死关系方面具有很高的效能。

在TCGADEPMAP中预测的合成致死性(n = 604对)通过多重CRISPR/AsCas12a筛选方法在五种癌症谱系的代表性细胞模型中进行了实验验证(图4a,b)。实验库中添加了额外的对照对(n = 261对),包括必需平行基因对和肿瘤抑制基因(TSGs)及其相互作用伙伴的非必需基因对。在五种癌症细胞模型中进行的初步试验筛选,在至少一个代表性细胞模型中实验验证了69个TCGADEPMAP合成致死对。在生成这些数据时,报告了一种兼容CRISPR/AsCas12a文库的增强型AsCas12a(enAsCas12a)酶,使初步筛选得以重复并扩展到16种癌症细胞模型。值得注意的是,初步筛选在五个共同细胞模型中的复现性很高(平均r = 0.69),并且与非必需对照相比,检测到必需对照和合成致死伙伴的显著减少(图4c)。除了新对,还在多个细胞系中复现了多个以前报道的合成致死对,证明多重CRISPR/Cas12a筛选平台在测试合成致死性方面的鲁棒性。值得注意的是,不同细胞模型和谱系对合成致死性的敏感性有所不同,表明在不同细胞环境中表现出的未知合成致死修饰因子的普遍存在,尚未完全理解。

在TCGADEPMAP预测的604个合成致死性中,78个(13%)在至少一个代表性细胞模型中得到了实验验证(图4d,e)。例如,CNOT7/8的双敲除(DKO)在筛选的14个细胞系中有11个表现出合成致死性(图4e),并在五个细胞模型中通过2D单层和3D球体测定的RNP DKO进行了独立验证(图4f,g)。同样,CNOT8在HT29细胞中诱导失活对缺失CNOT7的细胞在体外2D单层(图4h)和体内小鼠异种移植研究(图4i)中表现出合成致死性。值得注意的是,CNOT7在单敲除(KO)细胞中的丢失与CNOT8蛋白水平升高相一致,与先前观察到的CNOT7丢失增加CNOT8整合到CCR4–NOT复合物中的现象一致。同样,在NCI临床蛋白质组肿瘤分析联盟队列的肺腺癌(LUAD)和乳腺癌(BRCA)患者中,CNOT8蛋白水平与CNOT7拷贝数呈负相关。综合这些观察结果,证明了TCGADEPMAP在检测患者相关的合成致死机制方面的效能,可以通过独立验证并提供药物发现的治疗靶点。

图4:使用 TCGADEPMAP 转化人类癌症中的合成致死性

另一个通过TCGADEPMAP发现的是PAPSS1与PAPSS2及其邻近的肿瘤抑制基因PTEN共缺失的合成致死性,这些基因在TCGA患者肿瘤中频繁共缺失(43%共存),但在癌症细胞系中基本未受影响。PAPSS1/PAPSS2是合成3'-磷酸腺苷-5'-磷酸硫酸(PAPS)所必需的功能冗余酶,PAPS是所有磺化反应所必需的。为验证这一假设,研究团队在H1299球体中靶向PAPSS1/PAPSS2,通过流式细胞术测量球体生长和细胞表面硫酸乙酰肝素(HSPG)链的硫酸化水平。证实了CRISPR/Cas12筛选数据(图5a),PAPSS1和PAPSS2的双重丢失显著降低了H1299球体的生长(图5b),与HSPG硫酸化的丢失一致。同样,靶向内源性缺乏PAPSS2和PTEN的UMUC3细胞中的PAPSS1也显著减少了HSPG硫酸化,并显著减少了球体生长,这可以通过添加外源性硫酸乙酰肝素来挽救(图5d)。最后,PAPSS1/PAPSS2合成致死性在体内得到验证,缺乏PAPSS1和PAPSS2的UMUC3肿瘤相比仅缺乏PAPSS2的对照肿瘤,表现出显著的肿瘤生长减少(图5e)。综上所述,这些数据表明,TCGADEPMAP等转化依赖性图谱是揭示癌症模型中先前未充分代表的合成相互作用的强大工具,可能与患者相关。

TCGADEPMAP独特之处在于能够揭示与患者预后相关的潜在合成致死性,使得能够优先考虑与最差预后相关的实验验证的合成致死性,这些合成致死性如果可药物化,可能具有最大的临床影响。为了测试这一可能性,使用Cox对数秩检验评估与TCGADEPMAP预测的基因必需性和LOF事件(突变、缺失或两者)的假定合成致死伙伴相关的TCGA患者的总体生存率(OS)。在控制肿瘤谱系后,TCGADEPMAP中的PAPSS1依赖性与PAPSS2缺失患者的OS显著较差相关(风险比(HR)= 0.61,P = 0.0004),表明PAPSS1是具有潜在高转化影响的合成致死靶点。综上所述,这些数据表明,转化依赖性图谱能够实现合成致死性的发现、验证和转化。

图5:TCGADEPMAP 检测到的新型合成致死性基因对 PAPSS1 和 PAPSS2

构建PDXEDEPMAP

   

除了构建TCGADEPMAP,研究团队还采用类似的方法,利用PDX百科全书(PDXE)生成了一个正交转化依赖性图谱(PDXEDEPMAP)(图6a)。PDXEDEPMAP通过将交叉验证的1966个表达模型从DEPMAP转移到PDXE(191个肿瘤)中,并使用对齐的PDXE全基因组表达谱组装而成。PDXEDEPMAP中五个代表性谱系的基因重要性无监督聚类证实,谱系是基因依赖性的关键驱动因素,这与TCGADEPMAP中的观察结果一致(图6b,图2e)。PDXEDEPMAP还检测到KRAS突变的胰腺导管癌(PDAC)和结直肠癌(CRC)谱系中显著更强的KRAS重要性(图6c,d),而BRAF突变的皮肤黑色素瘤(CM)中BRAF重要性最强(图6e,f)。这些数据表明,PDXEDEPMAP在检测PDX模型中的基因重要性信号方面与TCGADEPMAP相当。

除了对TCGADEPMAP的正交验证,PDXEDEPMAP的一个独特优势是能够评估基因重要性在五种癌症谱系和15种分子疗法中的治疗反应(图6g,h)。为了测试基因重要性预测对应靶向治疗反应的能力,研究团队将PDX负担从基线到实验终点的变化与目标基因重要性相关联。结果显示,80%的药物(15种中有12种)与目标基因的预测重要性显著相关(P<0.05)。例如,PDXEDEPMAP中的曲妥珠单抗反应由HER2依赖性强烈预测(R=0.4849, P=0.002, AUC=0.75),与HER2扩增的BRCA患者中曲妥珠单抗反应的预测能力一致(图3e)。其他例子如厄洛替尼(R=0.4937, P=0.01, AUC=0.78)和西妥昔单抗(R=0.2293, P=0.06, AUC=0.83),这些药物靶向同一基因(EGFR),为探索治疗抵抗的依赖机制提供了机会。PDX对厄洛替尼或西妥昔单抗的反应比较显示了两个共同通路的依赖性:SWI/SNF复合物(SMARCA2和SMARCD1)和蛋白质运输(EMC4, EMC6, VPS39和MAPK14)(图6g,h)。值得注意的是,这两个通路的成分都与EGFR抑制剂的抵抗性有关,这表明靶向这些依赖性可能会改善患者的预后。总之,这些数据表明基因重要性能够预测治疗反应,并强调了PDX建模在与患者相关的临床结果中的可转化性。

图6:构建患者衍生异种移植模型的转化依赖性图谱:PDXEDEPMAP

在GTEXDEPMAP中转化基因耐受性

   

这项研究的最后一个目标是定义健康组织中的基因重要性,这将为优先考虑具有最佳预测耐受性的肿瘤依赖性提供资源。为了实现这一目标,研究团队将DEPMAP中的表达依赖性模型转置到GTEX(GTEXDEPMAP),GTEX是一个由健康供体的正常组织深度表型组成的汇编(图7a)。为了评估GTEXDEPMAP对低耐受性依赖性的敏感性,研究团队比较了具有肝脏和血液毒性的药物的分子靶标在GTEXDEPMAP中的表现。结果显示,肝脏和血液中的平均重要性高于其他正常组织(图7b)。同样,对1966个交叉验证的基因重要性模型进行无监督聚类显示,健康器官中存在强烈的组织来源依赖性(图7c)。这些数据表明,GTEXDEPMAP对已知毒性敏感,这些毒性聚集在不同的健康器官类型周围。

将TCGADEPMAP中已知的可药物靶向癌基因的重要性得分与GTEXDEPMAP进行比较,发现恶性组织中的依赖性远高于健康组织。例如,KRAS和BRAF的重要性似乎同时依赖于谱系和遗传驱动因素,因为在GTEXDEPMAP中,健康组织的起源受到的影响显著低于TCGADEPMAP(图7d,e)。同样,对于其他在癌症患者中获批的治疗靶点癌基因(如HER2扩增的BRCA),也观察到了类似的情况。相反,对于在临床试验中尚未成功的分子疗法,恶性肿瘤和健康组织的预测重要性分离较小。为了细化在肿瘤疗效和健康组织耐受性之间显著差异的致癌通路列表,研究团队比较了所有基因和组织中的依赖性(TCGADEPMAP)和耐受性(GTEXDEPMAP)得分(图7f)。对肿瘤依赖性最强而健康组织耐受性最弱的通路分析显示,多种致癌通路和病理生理过程的富集,包括氧化磷酸化(P=5.8×10^-11)和线粒体翻译(P=2.9×10^-20)通路在LUAD中相比于健康肺组织有所富集(图7g)。综合来看,这些观察结果表明,在驱动突变的背景下,健康组织的低重要性预测能够识别具有可接受耐受性的有效药物靶点。

图7:构建正常组织中的转化依赖性图谱:GTEXDEPMAP

可视化转化依赖性的工具

   

为便于数据可视化,研究团队提供了一个交互式网络应用(https://xushiabbvie.shinyapps.io/TDtool/),用于探索TCGADEPMAP、PDXEDEPMAP和GTEXDEPMAP中的数据。

结论与前景

   

癌症依赖图谱加速了肿瘤脆弱性的发现,但将这些发现转化为预测患者潜在药物靶点的治疗窗口仍具挑战性。研究团队使用机器学习构建了患者肿瘤和正常组织活检中的转化依赖图谱,使肿瘤脆弱性在药物靶点的疗效、耐受性和结果的背景下进行研究。转化依赖图谱使用弹性网络模型的转录组特征来预测基因重要性。由于预测模型未包含基因组特征,依赖评分可以独立测试与患者肿瘤中遗传驱动因素的关联。此外,这些仅基于表达的基因重要性模型可应用于健康组织,这些组织中不存在恶性组织中观察到的显著体细胞改变。为了展示如何整合这些数据来预测靶点的治疗窗口,研究团队展示了KRAS和BRAF在患者肿瘤中的依赖性在具有功能获得(GOF)突变的患者肿瘤中升高,而在缺乏这些驱动突变的正常组织活检中则不明显。综合来看,这些新的转化依赖图谱为基因重要性提供了独特且临床相关的视角,这是传统基于细胞的依赖图谱无法实现的。最后,研究团队在一个用户友好且互动的网络应用中免费提供了这些依赖图谱,以便探索和可视化数据。

在研究完成期间,Chiu等人采用了补充方法,通过使用深度学习和TCGA患者及DEPMAP细胞系的基因组、表观基因组和转录组特征构建了一个转化依赖图谱(DeepDEP)。研究团队使用了表达数据的弹性网络正则化回归模型来预测基因重要性和耐受性,这些基于表达的模型在恶性组织(TCGADEPMAP和PDXEDEPMAP)和非恶性组织(GTEXDEPMAP)中的表现与多组学模型相当。DeepDEP的作者也指出,使用仅表达数据的简化深度学习模型(Exp-DeepDEP)与DeepDEP的表现相当,表明两种方法都主要由表达数据主导。在缺乏其他真值的情况下,研究团队通过全癌症谱系和BRCA亚型比较了TCGADEPMAP和DeepDEP的预测肿瘤依赖性,结果显示,TCGADEPMAP的预测依赖性在识别癌症谱系和BRCA亚型方面与DeepDEP相当。因此,整体数据表明,TCGADEPMAP、PDXEDEPMAP和GTEXDEPMAP背后的弹性网络模型表现良好,与DeepDEP相当。随着更多研究的出现,进一步深入的依赖性翻译方法评估,包括检测遗传驱动因素、合成致死性和其他患者相关特征的能力是必要的。

转化依赖图谱的一个优势是能够再现患者肿瘤的背景、治疗反应和许多疾病结果的方面。符合组织来源主导癌症分子特征的观察结果,TCGADEPMAP和PDXEDEPMAP显示肿瘤脆弱性与疾病谱系和亚型密切相关。致癌依赖性还预测了TCGADEPMAP和PDXEDEPMAP中的分子靶向治疗反应,这与针对患者中致癌驱动因素的分子治疗的反应率一致。总共有85%的致癌依赖性与患者肿瘤中依赖性的增加相关,其中28%与无进展生存期(PFI)相关,包括一些预测较好或较差结果的依赖性,这取决于癌症谱系。这些数据与观察到的约10%的癌症驱动基因在不同肿瘤背景下具有致癌和抑癌特征的证据一致。一些致癌依赖性在患者和细胞模型之间也有所不同,包括FLT3、ATPV6V0E1和PTPN11。这些差异有些可能归因于SSDs的潜在驱动因素在不同队列中的分布(如FLT3和ATPV6V0E1),而其他差异可能归因于不同的病理生理背景,如完整肿瘤的3D环境与培养细胞的2D环境(如PTPN11)。总之,这些数据强调了在与患者相关的背景下解释基因重要性的复杂性,未来的研究有必要进一步翻译影响患者结果的新肿瘤依赖性的潜在机制。

TCGADEPMAP检测到多个已知的合成致死性(如STAG1/STAG2、SMARCA2/SMARCA4和EP300/CREBBP),以及一些较少表征的合成致死性(如CNOT7/CNOT78和PAPSS1/PAPSS2)。合成致死相互作用在不同癌症细胞模型中的测试结果差异很大,这表明目前可用的模型不足以解释所有患者相关的背景。然而,广泛共享的合成致死性(CNOT7/CNOT78)和更具选择性的合成致死性(PAPSS1/PAPSS2)在体外和体内得到了验证。CNOT7/CNOT78是CCR4–NOT复合物的同源亚单位,该复合物介导信使RNA稳定性,符合观察到两者缺失广泛合成致死的结果。PAPSS1/PAPSS2是PAPS的同源合酶,PAPS是磺化反应所需的。研究团队假设PAPSS2的缺失可能是由于其靠近PTEN,这是患者肿瘤中附带缺失的例子。这个观察结果通过缺乏PAPSS2和PTEN的UMUC3细胞中PAPSS1的合成致死相互作用得到了证实,这些细胞不能磺化蛋白质。值得注意的是,TCGADEPMAP独特地检测并关联合成致死机制与患者结果的能力显示,具有内源性PAPSS2缺失和预测合成致死性的患者的总生存期(OS)更差。因此,这些数据综合展示了转化依赖图谱的优势,这些图谱紧密匹配完整患者肿瘤的病理生理背景,并利用多样的患者基因组数据集来识别临床相关的机制。

思考与挑战

   

这项研究的一个独特方面是能够系统地比较TCGADEPMAP中与体细胞突变相关的基因重要性与GTEXDEPMAP中健康组织来源的耐受性特征。系统地扩展这一分析,覆盖TCGADEPMAP和GTEXDEPMAP中的所有基因重要性模型,揭示了预测耐受性窗口的广泛变异,暗示其他具有强遗传驱动因素的依赖性存在,这些依赖性可能作为治疗靶点更具耐受性。然而,在解释这些数据时,研究团队建议谨慎行事,因为通过比较TCGADEPMAP和GTEXDEPMAP中组织来源的基因重要性预测的耐受性窗口可能还未完全捕捉到影响临床药物开发的其他剂量限制性毒性。因此,未来在健康组织中建模基因重要性的努力应扩展到整合多器官生理路径和系统中的耐受性信号。

这项研究提出的转化依赖图谱提供了关于患者肿瘤和健康组织中基因重要性和耐受性的见解。这些图谱准确地将依赖性转化为患者的能力依赖于从基于细胞的图谱构建预测模型的能力,这仍处于早期阶段,预计需要20倍的数据来全面预测基因重要性。此外,基于细胞的依赖性在2D和3D环境之间的差异以及肿瘤微环境的相互作用表明,基因重要性是情境性的,需要更相关的模型,如类器官。同样,准确解释转化依赖性也可能需要更深入地理解患者肿瘤中缺乏的克隆异质性。为了充分发挥转化依赖性图谱的潜力,还需要扩展患者基因组数据集的目录,以捕捉疾病进展的各个阶段,包括肿瘤发生、转移和治疗抵抗。此外,随着精确癌症临床试验的不断扩展(如MSK-IMPACT),通过测试分子治疗与预测靶点重要性结果来细化转化依赖图谱将变得越来越可能。健康组织中的转化“耐受性”图谱(如GTEXDEPMAP)的实用性尚未完全探索,可能需要进一步改进以更好地捕捉影响药物开发的剂量限制性毒性。为此,研究团队推测,通过将CRISPR扰动与单细胞RNA测序配对,在正常细胞类型中建模基因耐受性可能是最佳方法,以广泛捕捉维持健康组织稳态所需的路径变化。最终,研究团队推测,在患者中预测依赖性和耐受性的建模将通过预先优先考虑具有最佳治疗指数(高依赖性和耐受性)的靶点来增加药物发现的成功率。

链接

   

引文:Shi, X., Gekas, C., Verduzco, D. et al. Building a translational cancer dependency map for The Cancer Genome Atlas. Nat Cancer (2024).

如果有帮助记得关注+收藏~

原文链接:https://doi.org/10.1038/s43018-024-00789-y

代码链接:https://github.com/xushiabbvie/TDtool

启发

   

这篇文章的研究启发我们,未来的癌症研究可以通过结合更先进的多组学数据整合技术、深度学习算法和个性化医学方法,进一步提升肿瘤依赖性解析和治疗预测的精度和实用性。首先,多组学数据整合技术不仅包括基因组和转录组数据,还应结合表观基因组、代谢组和蛋白质组数据,通过全面描绘肿瘤细胞的生物学特性,识别出更多具有临床意义的依赖性特征。其次,深度学习算法,如卷积神经网络(CNN)和图神经网络(GNN),在处理复杂和大规模数据集方面具有显著优势,可以更准确地预测基因依赖性和药物反应。这些算法可以自动提取数据中的深层次特征,识别出传统机器学习方法难以捕捉的复杂模式。通过训练更大规模和多样化的数据集,深度学习模型能够提高预测的泛化能力和准确性。最后,结合个性化医学方法,将患者的基因组、临床数据和生活习惯等个性化信息纳入模型,能够提供更精准的治疗建议和预后预测。这样的综合方法不仅能够更好地揭示肿瘤依赖性的复杂机制,还能为每个患者量身定制最有效的治疗方案,从而显著改善治疗效果和患者生存率。这些方法之所以能取得效果,是因为它们能够捕捉和利用更多维度和更精细的生物学信息,使得预测模型更具针对性和精准性,最终实现更有效的癌症治疗和管理。

合作和投稿事宜请联系微信或邮箱

合作请加微信:l2195711724  投稿邮箱:advancebc@163.com

AdvanceBC科研群聊微信扫码,备注好地区-单位(选填)-昵称,广告勿扰