ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
106 stars 30 forks source link

左志向/张迪/余光创-开发肿瘤免疫治疗转录组数据分析R包tigeR #5600

Closed ixxmu closed 1 day ago

ixxmu commented 1 day ago

https://mp.weixin.qq.com/s/ubgQu4qB4WZ7hMTN-BDq7Q

ixxmu commented 1 day ago

左志向/张迪/余光创-开发肿瘤免疫治疗转录组数据分析R包tigeR by YuLabSMU

tigeR:肿瘤免疫治疗转录组数据分析R工具包

方法论文

 期刊: iMeta (IF 23.7)

 原文链接DOI: https://doi.org/10.1002/imt2.229

2024年8月6日,中山大学左志向、张迪和南方医科大学余光创团队在iMeta在线联合发表了题为“tigeR: Tumor immunotherapy gene expression data analysis R package”的文章。

● 本文开发了肿瘤免疫治疗基因表达R包(Tumor Immunotherapy Gene Expression R package, tigeR 1.0),为研究界提供一个强有力的鉴定免疫治疗疗效预测标志物和构建预测模型的工具。

  第一作者:陈逸豪、何丽娜

  通讯作者:左志向(zuozhx@sysucc.org.cn)、余光创(gcyu1@smu.edu.cn)、张迪(zhangdi@mail2.sysu.edu.cn)

  合作作者:张远哲、龚静如、徐双斌、舒跃龙

  主要单位:中国医学科学院病原生物学研究所、中山大学肿瘤防治中心、南方医科大学、中山大学附属第六医院

  亮  点

●  tigeR是一款功能强大且易于使用的R工具包,其致力于探索肿瘤免疫治疗疗效预测标志物并构建疗效预测模型;

●  tigeR支持灵活的输入数据类型,包括内置的和用户自定义的基因表达数据以及对应的免疫治疗结局信息;

●  tigeR包括4个不同的但高度关联的分析模块,即标志物评估模块、肿瘤微环境反卷积模块、预测模型构建模块和疗效预测模块。

 摘   要

免疫治疗在晚期肿瘤的治疗中显示出巨大的前景,然而只有一部分患者能从中获益,且其疗效存在癌种和患者间的异质性。鉴定识别免疫治疗潜在获益人群的生物标志物和开发疗效预测模型显得尤为重要。有鉴于此,作者开发了肿瘤免疫治疗基因表达R包(Tumor Immunotherapy Gene Expression R package, tigeR 1.0),为研究界提供一个强有力的鉴定免疫治疗疗效预测标志物和构建预测模型的工具。tigeR支持对内置的数据集和用户自定义的数据集的探索,包括4个不同但高度关联的分析模块。其中,标志物评估模块(Biomarker Evaluation module)可探索感兴趣的标志物(基因或者基因集)是否与免疫治疗疗效相关。肿瘤微环境反卷积模块(Tumor Microenvironment Deconvolution module)整合了10种计算肿瘤微环境中不同细胞亚群比例的开源算法,可用于研究不同细胞亚群与免疫治疗疗效之间的关联。预测模型构建模块(Prediction Model Construction module)使用户能够使用一系列内置的机器学习算法构建复杂的疗效预测模型。疗效预测模块(Response Prediction module)基于预先训练的机器学习模型或公开的基因表达特征,根据患者的基因表达数据预测其免疫治疗应答情况。通过提供这些多样化的功能,tigeR旨在简化免疫疗法基因表达数据分析的流程,从而使没有高级编程技能的研究人员也能进行快速的数据探索。tigeR 项目的源代码和示例代码可通过 http://github.com/YuLab-SMU/tigeR获取。

视频解读

Bilibili:https://www.bilibili.com/video/BV1DH4y1c7uE/

Youtube:https://youtu.be/q9iY_lHsR98

中文翻译、PPT、中/英文视频解读等扩展资料下载

请访问期刊官网:http://www.imeta.science/

全文解读

引  言

免疫治疗已成为一种对于不同类型的癌症患者非常有前景的治疗方法,其通过增强及调动机体的免疫系统来杀伤肿瘤,给患者带来了新希望。然而,由于不同类型癌症和患者个体的异质性,不同个体和不同癌种间免疫治疗的疗效仍然存在差异。因此,在精准医疗时代,准确识别免疫治疗的潜在获益人群至关重要,这也凸显了构建稳健的预测模型的重要性。

高通量测序技术的发展让我们能够以前所未有的精度去表征肿瘤的分子特征。高通量测序,特别是转录组学,有助于全面分析基因表达模式、鉴定肿瘤生物标志物和评估肿瘤微环境(tumor microenvironment, TME)。这些见解不仅有助于揭示肿瘤发生和免疫逃逸的潜在机制,而且在指导个性化诊断和治疗策略的发展方面具有巨大的潜力。通过将高通量测序数据整合到精准医疗计划中,研究人员可以构建强大的诊断模型,解析肿瘤的异质性,并为精准免疫疗法提供理论基础和思路。

目前已有多个网页工具致力于整合高通量表达数据,以帮助用户探索与免疫治疗相关的分子生物标志物,包括TIDE、TIMER2.0、TIRSF和TIGER。虽然这些工具提供了便利,但它们也存在一些局限性,包括有限的自定义分析的灵活性、将敏感信息上传到外部服务器时对数据安全和隐私的潜在担忧、由于依赖服务器端计算资源而导致的数据处理限制,以及导航特定界面和工作流所需的学习曲线。这些方面强调了开发克服以上局限性的替代解决工具(如 R 包)的重要性。

因此,作者开发了tigeR 1.0(Tumor Immunotherapy Gene Expression R package)(图1),使用户能够基于内置或自定义的免疫治疗相关基因表达数据探索与免疫治疗结局相关的生物标志物,研究TME细胞亚群与疗效之间的关系,基于一系列内置机器学习算法构建复杂的预测模型,并进一步基于预先训练的机器学习模型或公开的基因表达特征,利用患者的基因表达数据去预测个体患者的治疗应答情况。

图1. tigeR 工具包的整体设计图

tigeR软件包包含四个功能模块,分别是生物标志物评估模块、肿瘤微环境反卷积模块、预测模型构建模块和疗效预测模块。

结  果

评估与免疫治疗疗效相关的生物标志物

作者演示了利用 tigeR中标志物评估模块(Biomarker Evaluation module) 的功能参数评估与免疫治疗疗效相关的生物标志物。用户可以从预加载的内置数据集中选择一个或多个免疫治疗数据集,或使用自定义的数据集来评估特定的生物标志物,包括单个基因或一个基因集。对于单个基因,以CXCL13为例,一个公认的与免疫检查点阻断(immune checkpoint blockade, ICB)治疗疗效呈正相关的生物标志物。通过采用“diff_biomk”功能,作者发现在Melanoma-PRJEB23709和Melanoma-GSE93157数据集中,与无应答患者样本相比,应答者样本CXCL13的表达明显更高,结果使用箱线图进行视化(图3A-B)。CXCL13区分应答者和无应答者的性能可以使用“roc_biomk”功能进行评估,并使用受试者工作特征(Receiver operating characteristic, ROC)曲线进行可视化(图3C-D)。此外,“diff_biomk”功能还可评估治疗前后样本之间的标志物表达差异。与治疗前样本相比,治疗后样本中CXCL13的表达显著升高,结果使用箱线图进行可视化(图3E-F)。至于生存结局的评估,作者通过“surv_biomk”功能在多个数据集中证明了 CXCL13 表达升高与接受 ICB 治疗的患者总生存期提高之间的关联,结果使用 Kaplan-Meier 生存曲线进行可视化(图 3G-I)。这些发现与既往文献报道一致,证实了 CXCL13 是一种强大的与ICB疗效呈正相关的生物标志物。

对于一个基因集,用户可以先使用“score_biomk”函数来计算基因集分数,其中有“average mean”、“weighted mean”和“GSVA”等算法可供选择。然后,用户可以使用上述评估单个基因的功能参数来研究目标基因集与免疫治疗疗效之间的相关性。作为示例,作者使用公共数据集 GSE145996评估了已知的与免疫治疗应答相关的三级淋巴结构 (tertiary lymphoid structure , TLS) 特征基因集评分在预测免疫治疗疗效方面的表现,发现 TLS 基因集评分可以很好地区分应答组和无应答组(图 3J-K),TLS 基因集评分较高的患者总生存期更好(图 3L)。

此外,作者从已发表文献中收集了 23 个与免疫治疗疗效相关的特征基因集,并将这些基因集整合到了tige R 工具包中。用户可以使用“compare_biomk”功能将感兴趣的生物标志物与这些内置的生物标志物进行比较,从而对感兴趣的生物标志物的预测性能进行一个初步的评估(图3M)。

图3. 标志物预测模块的应用

(A, B)Melanoma-PRJEB23709 (A) 和 Melanoma-GSE93157 数据集 (B) 中应答者和无应答者间CXCL13 基因表达的差异;(C, D)受试者工作特征曲线图展示 CXCL13 基因表达在 Melanoma-PRJEB23709 (C) 和 Melanoma-GSE93157 数据集 (D) 中区分应答者和无应答者的性能;(E, F) Melanoma-GSE115821(E)和Melanoma-GSE91061数据集(F)中治疗前和治疗后样本的CXCL13基因表达差异;(G-I)Kaplan Meier 图展示 MEL-PRJEB23709 (G)、MEL-Nathanson_2017(H) 和 RCC-Braun_2020 数据集 (I) 中 CXCL13 基因表达高和低的患者之间的生存差异;(J) Melanoma-PRJEB23709 数据集中应答者和无应答者之间的三级淋巴结构基因集评分的差异;(K)受试者工作特征曲线图展示三级淋巴结构基因集评分在 Melanoma-PRJEB23709 数据集中区分应答者和无应答者的性能;(L) Kaplan-Meier 图展示MEL-PRJEB23709 数据集中 三级淋巴结构基因集评分高和低的患者之间的生存差异;(M) 热图展示23 个内置免疫治疗相关基因集和用户自定义的基因集在 19 个内置免疫治疗数据集中区分应答者和无应答者的AUC值。

鉴定与免疫治疗疗效相关的肿瘤微环境成分

肿瘤微环境分析对于了解肿瘤免疫逃逸机制和预测免疫治疗的疗效至关重要。针对TME组分的分析方法可为与抗肿瘤免疫应答结局相关的肿瘤细胞、免疫细胞和基质细胞之间的相互作用提供见解。作者在 tigeR 中整合了 10 种开源肿瘤微环境反卷积算法以计算肿瘤样本中不同细胞亚群的比例,包括CIBERSORT、TIMER、ESTIMATE、IPS、xCell、EPIC、ConsensusTME、ABIS、 quanTIseq和MCP-counter。用户可以通过 ‘deconv_TME’ 函数对基因表达数据进行反卷积运算得出不同TME细胞类型的比例。使用函数‘deconv_TME’从黑色素瘤数据集 MEL_GSE78220得出的细胞类型比例作为一个示例(图 4A)。用户可以进一步通过 ‘roc_biomk’和‘surv_biomk’ 函数计算 TME 细胞类型与免疫治疗疗效之间的相关性(图 4B-K)。作者发现在黑色素瘤数据集 MEL_GSE91061 中,幼稚 B 细胞比例与总生存期呈显著正相关(图 4L),单核细胞比例与总生存期呈显著负相关(图 4M)。

此外,为便于用户使用转录组数据研究从单细胞 RNA 测序 (single-cell RNA sequencing, scRNA-seq) 数据中鉴定出的新型细胞群,作者开发了 “build_CellType_Ref”功能。通过此功能,用户可以利用scRNA-seq 分析结果生成细胞类型特征矩阵,并进一步在“deconv_TME”函数中利用这种自定义的参考矩阵,基于反卷积算法(如TIMER、CIBERSORTx、EPIC和ABIS)研究特定的bulk转录组数据中目标细胞类型的比例。

图4. 与免疫治疗疗效相关的肿瘤微环境成分

(A) 分别使用 TIMER、CIBERSORT、MCPCounter、xCell、EPIC、ABIS、ConsensusTME、quanTIseq、ESTIMATE 和 IPS等算法对基因表达数据中的肿瘤微环境不同细胞类型的比例进行反卷积运行;(B-K)从上述10种工具得出的肿瘤微环境亚群比例与免疫治疗疗效之间的关联,左侧的条形图展示每种细胞类型区分应答者和无应答者的 AUC 值,右侧的点图展示每种细胞类型的比例与生存结局的相关性;(L) Kaplan-Meier 图展示幼稚 B 细胞比例高和低的患者之间的生存差异;(M) Kaplan-Meier 图展示单核细胞比例高和低的患者之间的生存差异。

构建免疫治疗疗效预测模型并预测患者疗效

自动化机器学习模型的构建可以使临床专家能够有效地处理复杂的生物数据,从而促进个性化肿瘤免疫治疗策略的发现。tigeR为用户提供了一个简便的函数“build_Model”以构建机器学习模型。该功能函数允许用户基于免疫治疗相关的基因表达数据,利用多种机器学习算法构建疗效预测模型,包括朴素贝叶斯(naive bayes, NB)、随机森林(random forest, RF)、支持向量机(support vector machine, SVM)、CancerClass(CC)、adaboost(ADB)、logitboost(LGB)和逻辑回归(logistic regression, LGT)等算法。此外,用户可以通过“test_Model”函数使用测试数据集评估训练的模型的泛化表现能力。

作者随后按照图 5A 中呈现的工作流程进行操作,以演示如何使用预测模型构建模块(Prediction Model Construction module)中的功能函数来构建稳健的免疫治疗疗效预测模型。作者使用了来自接受抗程序性细胞死亡-1 (programmed cell death-1, PD-1))或抗细胞毒性 T 淋巴细胞抗原-4 (cytotoxic T lymphocyte antigen-4, CTLA-4) 抗体治疗的三个黑色素瘤队列(MEL_GSE91061、MEL_phs000452、MEL_Nathanson_2017)的 275 个治疗前样本的基因表达数据。这些样本被随机分为训练集 (n = 187) 和测试集 (n = 88)。使用 TIMER 算法进行反卷积运算推断每个样本TME 细胞类型的比例。用于训练机器学习模型的特征包括方差大于 0.1 的 72 个基因、如前所述的23 个内置的免疫治疗相关基因集和 TME 细胞类型比例。通过“build_Model”函数调用7种不同的机器学习算法进行疗效预测模型的训练(图 5B)。随后在测试集中使用“test_Model”函数评估每个模型的性能,结果提示随机森林(RF)模型实现了最高的曲线下面积 (area under the curve, AUC) (AUC = 0.986)(图 5C)。该随机森林模型在一个独立的黑色素瘤数据集 MEL_GSE78220中亦表现出良好的预测性能(AUC = 0.7944)(图 5D)。此外,Kaplan-Meier 生存分析表明,基于该随机森林模型定义的“高风险”和“低风险”患者之间的总体生存率存在显著差异(图 5E,p = 0.022)。最后作者开发了一个函数‘pred_response’,让用户能够根据新构建的预测模型或者公开的基因标签集来预测患者是否能够获益于免疫治疗,此处使用另一个独立的黑色素瘤数据 MEL_GSE93157作为展示(图 5F)。

图5. 免疫治疗反应预测模型的构建与应用

(A)使用 tigeR 中的内置函数训练免疫治疗疗效预测模型的工作流程;(B) 七种机器学习算法在训练集中预测免疫治疗疗效方面的性能比较;(C)七种机器学习算法在测试集中预测免疫治疗疗效方面的性能比较;(D)受试者工作特征曲线图展示新构建的随机森林模型在独立数据集 MEL-GSE78220 中的疗效预测性能;(E)Kaplan-Meier 图展示根据随机森林模型定义的高评分和低评分组患者间的生存差异;(F)热图展示基于预先训练的机器学习模型或公开的基因表达特征,使用“疗效预测模块”的功能函数从基因表达数据中预测个体患者的免疫治疗应答情况。

tigeR工作流程

如图 2 所示,tigeR 由四个不同的但相互关联的功能模块组成。用户可以灵活地载入内置的基因表达数据与免疫治疗结果信息进行后续分析,或利用自定义的数据进行相关探索。其中,标志物评估模块(Biomarker Evaluation module)用于评估感兴趣的生物标志物与免疫治疗结局之间的相关性。肿瘤微环境反卷积模块(Tumor Microenvironment Deconvolution module)可以调用10种开源算法推断肿瘤微环境中不同细胞类型的比例。该模块还提供用于评估肿瘤微环境细胞组分与免疫治疗结局之间的相关性的功能。随后,根据从这两个模块中选择的特征,用户可以利用预测模型构建模块(Prediction Model Construction module)(该模块包含一系列机器学习算法)中的功能函数对转录组数据进行模型训练,构建免疫治疗疗效预测模型。最后,基于预先训练的机器学习模型或公开发表的基因表达特征,用户可以使用疗效预测模块(Response Prediction module)中的功能函数从基因表达数据中预测个体患者的免疫治疗应答情况。这些功能模块在运行时间方面表现出良好的性能。

图2. tigeR 包中四个不同但相互关联的功能模块的工作流程图


讨  论

免疫治疗作为一种新兴的治疗模式,在不同类型肿瘤的治疗中取得了令人瞩目的成功。然而,在非筛选的患者群体中,只有一小部分患者能获益于免疫治疗,尤其是免疫单药治疗。因此,探索免疫治疗的耐药机制和疗效预测生物标志物已成为研究界备受关注的领域。作者开发的tigeR工具包具有四个不同的但高度关联的功能模块,为研究人员挖掘免疫治疗的疗效预测生物标志物和构建预测模型提供了一个自动化和一体化的分析管道。

与其它现有的主流免疫治疗数据相关分析方法相比,tigeR具有多项创新点和优势(表1)。首先,与现有的网页工具(如TIGER、TIDE、TIMER2.0、TIRSF、ICBaltas和TISIDB)相比,tigeR具有以下优势和创新点(表1):分析自定义数据的高度灵活性;对上传文档的大小不设限制;提供更全面、更连贯的免疫治疗相关数据探索流程,逐步揭示与治疗结局相关的基因、基因集和肿瘤微环境成分,并进一步根据这些探索发现开发和验证预测模型;用户友好的功能参数,用于可发表的输出数据。其次,与现有的免疫治疗数据相关R分析工具(IOBR、EaSIeR)相比(表1),tigeR工具包在以下几个方面表现出色:易于访问的来源于TIGER网页工具的内置免疫治疗数据集;基于SummarizedExperiment 输入对象的统一分析工作流;帮助用户快速输出基于多种强大的机器学习算法构建的免疫治疗疗效预测模型;灵活的可视化选项和可调整的参数。此外,作者正在进行的研究工作是将单细胞测序数据和免疫组库测序数据相关的分析算法和模型整合进tigeR工具包中。需要注意的是,tigeR工具包中的一些基础分析,如差异表达分析、生存分析、受试者工作特征曲线分析和机器学习方法,也适用于其他领域。

综上,作者开发的tigeR工具包将为癌症免疫治疗研究领域提供强大的助力。凭借其全面的功能套件,用户能够通过探索生物标志物、剖析免疫细胞群和治疗结局之间的动态关联以及使用最先进的机器学习算法构建预测模型来深入研究免疫治疗应答的复杂性。tigeR支持对内置和自定义的免疫治疗相关基因表达数据进行探索分析,有助于更深入地理解抗肿瘤免疫应答背后的分子机制。tigeR不仅简化了分析流程,而且还可促进肿瘤免疫治疗领域的新发现,最终助力于患者个体化管理的实施和治疗结局的改善。

表1. tigeR和其它分析免疫治疗相关数据的工具的特征比较

代码和数据可用性

tigeR 工具包可以从 GitHub (http://github.com/YuLab-SMU/tigeR) 上开源获取。详细的 tigeR 教程文档可访问https://yulab-smu.top/tigeR/。tigeR 软件包的内置数据集囊括了 1060 个样本,包括来自11 个黑色素瘤数据集、3 个肺癌数据集、2 个肾癌数据集、1 个胃癌数据集、1 个低级别胶质瘤数据集、1 个胶质母细胞瘤数据集和 1 个头颈部鳞状细胞癌数据集的基因表达数据和对应样本的相关临床信息。这些数据集被整理成“SummarizedExperiment”(SE)对象,可以使用 tigeR 中的“Dataloader”函数从 Bioconductor ExperimentHub(https://github.com/Bioconductor/ExperimentHub)或 TIGER Web 服务(http://tiger.canceromics.org)直接加载到 R 环境中。SE对象中的表达数据已经过FPKM标准化。此外,用正文中生成图表的代码和数据可于 GitHub (https://github.com/YuLab-SMU/tigeR.data) 中获取。所有的补充材料(图、表、脚本、图形摘要、幻灯片、视频、中文翻译版本和更新材料)可从线上获取( DOI 或 iMeta Science http://www.imeta.science/ )。


引文格式

Yihao Chen, Li-Na He, Yuanzhe Zhang, Jingru Gong, Shuangbin Xu, Yuelong Shu, Di Zhang, Guangchuang Yu, Zhixiang Zuo. 2024. tigeR: Tumor immunotherapy gene expression data analysis R package. iMeta e229. https://doi.org/10.1002/imt2.229

作者简介

陈逸豪(第一作者)

 中国医学科学院(北京协和医学院)病原生物学研究所基础医学博士生。

 研究方向主要为多组学高通量数据挖掘、R包开发、流感病毒抗原进化以及深度学习。相关学术成果以第一作者的身份发表在iMeta。

何丽娜(第一作者)

 中山大学肿瘤防治中心基础医学博士。

 研究方向主要为多组学高通量数据挖掘、数据库研发以及肿瘤分子分型体系和免疫治疗疗效预测标志物的鉴定。目前以第一或共同第一作者的身份在iMeta、ESMO Open等学术期刊上发表SCI论文8篇。

左志向(通讯作者)

 中山大学肿瘤防治中心研究员,博士生导师。

 研究方向为肿瘤RNA 及其修饰的生物信息学研究与肿瘤微环境的RNA调控、肿瘤靶标鉴定、大数据分析平台搭建和算法工具的开发,已以第一作者或者通讯作者的身份在Nature Genetics、Cancer Cell、Cancer Research、iMeta、Clinical Cancer Research、Nucleic Acids Research等国际权威杂志发表论文46篇,主持国自然科学基金面上项目等8项基金,授权发明专利1项,荣获2022年中华医学科学技术奖三等奖。

余光创(通讯作者)

 南方医科大学基础医学院教授,博士生导师。

 现任南方医科大学基础医学院生物信息学系主任。研究方向为微生态分析与干预、多组学整合与分析、生物信息学软件工具开发。主持国家自然科学基金面上项目,在Nature Protocols、The Innovation、Gut Microbes、Molecular Biology and Evolution等期刊发表论文40余篇,其中9篇为ESI高被引论文,他引频数超过4万次,入选全球高被引学者、全球前2%顶尖科学家榜单和中国高被引学者。

张迪(通讯作者)

 中山大学附属第六医院肛肠外科,医学博士,副主任医师,硕士生导师。

 擅长结直肠癌等恶性疾病以及混合痔、复杂性肛瘘等肛周良性疾病的诊治;对于骶前肿瘤、直肠脱垂等盆底疾病有较深的造诣,报道了世界范围内最大数目的骶前肿瘤切除术,相关研究成果被英国结直肠外科协会官方期刊Colorectal Disease 收录。已以第一作者或通讯作者身份在Advanced Science、Gut、iMeta等国际顶尖期刊发表SCI 论文 16 篇。主持包括国家自然科学基金项目在内的各类基金6项。研究成果被2017年美国结直肠外科医师年会收录,并被邀请为大会作口头汇报。