ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
119 stars 30 forks source link

musicatk|突变特征分析R包 #1503

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/ojYyFkLIutxoWEeycCD7LQ

github-actions[bot] commented 2 years ago

musicatk|突变特征分析R包 by 生信人

今天要给大家介绍的是一个用于分析突变特征的R包——musicatk。文章于今年12 月发表在《Cancer Research》(IF:12.701)上。


用于发现、预测和探索突变特征的突变特征综合分析工具包 (musicatk)
其实目前已经开发出了不少好用的用于突变特征分析的软件包,那musicatk这个包又有哪些优势和创新呢?首先,musicatk包中的突变特征注释文件来自COSMIC中的最新版本,其次,它的功能更加全面和多样化,同时还可以通过突变特征预测未知肿瘤的样本类型。这个包的处理步骤主要可分为四步:①导入数据,②提取和计算,③突变特征的发现和预测,④对结果的可视化。

Musicatk包与其他软件包比较

功能使用和介绍
1.数据导入和处理
在导入数据的格式方面,musicatk包支持各种输入格式,包括VCF、MAF以及data.table或data.frame格式都可以。

图1A

2.突变特征分析
musicatk包中默认的特征算法是来自topicmodels包中的LAD算法,因为通过计算发现这种方法的准确性更高,时间更短。除了突变特征的识别,musicatk包还提供了突变特征的预测功能。

3.结果可视化

肿瘤中突变特征存在情况的可视化对于探索一组肿瘤中活跃的突变过程是很重要的。利用musicatk包可以对不同肿瘤中突变特征的类型和数量以及不同突变特征在不同肿瘤中出现的概率进行可视化统计(图1B)。也可以通过UMAP降维,按样本注释分组(图1C)。

图1B-C

4.下游分析
musicatk包中提供的下游分析包括与COSMIC特征的自动比较、热图分析、可用于显示样本中突变特征出现的相对水平和样本注释,以及肿瘤组之间突变特征的差异分析。例如,我们可以将发现的突变特征与COSMIC V2和V3特征进行比较(图1D)。

图1D

5.未知样本的突变特征预测
musicatk 包可以使用训练和测试组的突变特征分布情况来预测样本类别。例如,可用来自TCGA的肿瘤预测来源不明的样本的肿瘤类型。在训练集和测试集数据中使用相同的参考特征预测突变特征的分布情况后,进行下游分析,例如为所有样本生成UMAP。测试样本的类别可以使用与训练队列中每个类别中的样本的欧几里得距离中值来预测。对于每个测试样本,具有最低中值距离的类别将是预测的类别结果。

6.实例应用
通过应用基于LDA的方法来预测来自TCGA的Pan-Cancer数据集中的COSMIC v3 SBS 特征,结果发现65个特征中有39个在至少一种肿瘤类型中活跃出现。通过UAMP图分析发现,一些突变特征存在于近一半的样本中,一些存在于几种肿瘤类型中,一些存在于单一肿瘤类型中,还有一些存在于多种肿瘤类型的交集中(图2)。

图2

利用上述突变特征对肿瘤样本进行分群,最后确定了30个肿瘤亚群(补充图7)。其中cluster3由两个APOBEC相关特征SBS2和 SBS13的高频率定义,而cluster8主要由特征SBS7a和SBS7b定义。肿瘤亚群cluster3中包含的主要肿瘤类型有CESC(宫颈癌)、BRCA(乳腺癌)、BLCA(膀胱癌)和 HNSC(头颈癌)(图2C)。

补充图7

最后我们来说一下musicatk包将特征注释从一个队列映射到另一个队列的能力(图2D)。研究人员用MSK-IMPACT数据中的皮肤癌黑色素瘤 (SKCM)和膀胱癌(BLCA)来进行了测试,结果发现,100% 的MSK SKCM 样本被预测为TCGA中的SKCM类型,相比之下,MSK BLCA样本映射到几种 TCGA 肿瘤类型(58% CESC、37.5% BCLA、4% HNSC)。研究人员推测这可能是由于癌症本身的异质性所导致的。

文章还提供了代码和测试数据(https://github.com/campbio/musicatk/)可供学习。

参考文献
Chevalier A, Yang S, Khurshid Z, Sahelijo N, Tong T, Huggins JH, Yajima M, Campbell JD. The Mutational Signature Comprehensive Analysis Toolkit (musicatk) for the Discovery, Prediction, and Exploration of Mutational Signatures. Cancer Res. 2021 Dec 1;81(23):5813-5817. doi: 10.1158/0008-5472.CAN-21-0899. Epub 2021 Oct 8. PMID: 34625425; PMCID: PMC8639789.

团队介绍

生信人团队致力于打造新型的医学科研服务的模式,以生信技术开发服务为基础,强化基础立意和临床解读。深耕生信个性化分析数载,有一套有效的管理方案帮助大家缩短科研最后一公里的时间。从研究方向选择,方案设定,数据选择,售后处理,个性化修改,每一个环节都深深参与其中,真正的做到客户需要的按需定制。专注服务医学科研用户,让天下没有难做的生信 ,让医生没有难做的科研。生信人愿与你一路同行:轻松生信,快乐科研。