ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
122 stars 30 forks source link

IF: 16+ 6种机器学习算法利用代谢组学预测胃癌的诊断和预后 #5199

Closed ixxmu closed 4 months ago

ixxmu commented 4 months ago

https://mp.weixin.qq.com/s/XyH5b4eYfiee5CcjVfGNiQ

ixxmu commented 4 months ago

IF: 16+ 6种机器学习算法利用代谢组学预测胃癌的诊断和预后 by 桓峰基因


这期分享一篇2024年2月发表于 Nature Communications (IF 16+)的文章,作者基于6种机器学习算法利用代谢组学预测胃癌的诊断和预后。

该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!

摘    要

胃癌(GC)是世界范围内癌症相关死亡率的重要负担,强调迫切需要制定早期发现策略和精确的术后干预措施。然而,鉴别用于早期诊断和患者风险分层的非侵入性生物标志物仍未得到充分探索。在这里,我们对来自多中心参与者的702份血浆样本进行了靶向代谢组学分析,以阐明GC代谢重编程。我们的机器学习分析揭示了一个10代谢物GC诊断模型,该模型在外部测试集中得到验证,灵敏度为0.905,优于利用癌症蛋白标记物的传统方法(灵敏度< 0.40)。此外,我们的 机器学习衍生的预后模型比利用临床参数的传统模型表现出更好的性能,并有效地将患者分为不同的风险组,以指导精确的干预。总的来说,我们的研究结果揭示了GC的代谢景观,并确定了两个不同的生物标志物面板,分别可以进行早期检测和预后预测,从而促进GC的精准医学。

生信分析流程

研究设计概述:共有 702 人参与了这项研究,并对他们的血浆样本进行了针对性的代谢组学分析。我们比较了 Cohort 1 (n = 426) 中胃癌(GC)患者和非胃癌对照组(NGC) 的代谢谱,以描述 GC 中的代谢重编程。利用 Cohort 1的代谢组学数据和机器学习技术,建立并验证了GC诊断模型 (10-DM model)。在检验集(Cohort 2,n = 95) 中进一步验证了该模型。使用机器学习算法分析队列3 (n = 181) 患者的代谢组学数据及其临床特征,以建立预后模型(28-PM model)。这两种模型的性能以临床使用的生物标志物/临床特征为基准。图中不同颜色的三角形表示用于模型构建、验证和比较过程的不同参与者。

相关数据集选择

靶向代谢组学 (702人)

生信分析方法

根据文章的分析流程提取所有的分析内容,整理出来就11个分析条目,每个条目都包括分析的内容,这些分析构成了整个文章,本文属于机器学习的临床预测分析类文章,下面我们就看看哪些分析可以利用桓峰基因公众号的教程来实现,点击分析条码就会跳转到对应公众号的教程,跟着教程做,您也能发轻松发高分,如下:

  1. 代谢差异分析(two-sided Wilcoxon rank-sum test)

  2. 差异代谢物的聚类(Mfuzz)

  3. KEGG通路富集分析(clusterProfiler)

4. 6种机器学习算法

  least absolute shrinkage and selection operator(LASSO)

  Random forest(RSF)

  support vector machine (SVM)

  Logistic Regression

  PLS-DA

  random survival forest (RSF)

7.单/多因素Cox比例风险回归分析

8.生存分析(Kaplan-Meier)

9.预测模型一致性指数(C-index)

10.预测模型之接收者操作特征曲线(ROC)

11.绘图相关方法

  散点图 (Scatter)

  柱状图 (Barplot)

  箱线图 (Boxplot)

  折线图 (Lineplot)

  直方图 (HistogramPlot)

  小提琴图 (ViolinPlot)

  相关性矩阵图(Correlation Matrix)

研究结果

1. GC患者的重编程血浆代谢景观与非GC对照组的比较

a 队列1 (n = 426)血浆靶向代谢组学数据的主成分分析(PCA)比较GC患者(紫色)和NGC对照组(绿色)。

b 队列1血浆代谢组学中检测到的代谢物火山图(GC患者与NGC对照组)。

c 根据代谢变化的相似性,利用差异代谢物对GC进程中的代谢轨迹进行Mfuzz聚类。每个簇的代表性代谢物呈现在侧面。

d KEGG代谢途径在GC患者和NGC对照组之间富集有显著差异的代谢物。

2. 基于血浆代谢组的GC诊断机器学习预测模型

a 建模工作流的设计。采用LASSO回归和随机森林算法进行特征选择和模型训练。

b 测试集1中GC患者诊断的受试者工作特征(Receiver operating characteristic, ROC)曲线。

c 10种代谢物对10-DM模型的贡献。

d-g 10-DM模型在测试集1 (d)和测试集2 (e)中区分GC(紫色)和NGC(绿色)的预测性能,以及在测试集1 (f)和测试集2 (g)中区分I期GC患者(IA期黄色,IB期棕色)和NGC的预测性能。

3. 预后模型在预测GC患者预后方面优于临床参数

a 预测模型设计的示意图。

b 测试集的ROC曲线分析。

c 通过单变量Cox回归分析确定具有显著预后相关性的临床参数的森林图。

d 试验组宏观外观、TNM分期、血管肿瘤栓子、28-PM模型的c指数值比较(n = 60)。

e 使用28-PM模型对测试组患者(n = 60)的预后预测。

f Kaplan-Meier曲线显示按预后风险评分(截止值= 2.1)分层的测试组GC患者(n = 60)的总生存期(OS)和无病生存期(DFS)。

Reference

Chen, Y., Wang, B., Zhao, Y. et al. Metabolomic machine learning predictor for diagnosis and prognosis of gastric cancer. Nat Commun 15, 1657 (2024).

桓峰基因,铸造成功的您!

未来桓峰基因公众号将不间断的推出机器学习系列生信分析教程,

敬请期待!!

桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/

桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/