ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
110 stars 30 forks source link

全网最全!哈佛生信女神刘小乐团队研究成果汇总 #4979

Closed ixxmu closed 4 months ago

ixxmu commented 4 months ago

https://mp.weixin.qq.com/s/QXZgq-kefkiX1GwtKxvIUw

ixxmu commented 4 months ago

全网最全!哈佛生信女神刘小乐团队研究成果汇总 by 生信人

1.背景介绍

说到刘小乐(X. Shirley Liu)教授,相信做生信的小伙伴们没有不认识的,刘小乐教授团队不仅开发出了多种经典的生信分析算法,还在自己的YouTube主页分享了广受许多学习生信的小伙伴好评的经典课程(https://www.youtube.com/channel/UCiqOwwdgfak4GclHh5_CSpQ/playlists)。作为一名计算生物学家,刘小乐教授运用她在癌症表观遗传学和癌症免疫学方面的专业知识,在转化癌症研究的算法开发和数据集成建模领域作出了杰出的贡献。更令人敬佩的是,她在2022年离开Dana-Farber癌症研究所,成为GV20 Therapeutics 的首席执行官,但她并没有彻底离开学术界,此后仍然以第一或共同通讯的身份发表了多篇高水平论文,甚至在前不久423还以共同通讯的身份在Cell上发表了一篇关于先天免疫检查点和肿瘤免疫治疗靶点的研究论文

刘小乐教授团队的研究方向大致可以分为四类:癌症表观遗传学、CRISPR筛选、癌症免疫学和单细胞技术。今天小编就借此机会从这四类来系统总结一下截至目前刘小乐教授团队的重要研究发现。在这需要说明的一点是,由于刘小乐教授挂名的研究论文实在是太多了,其中很多都是合作课题的研究成果。为了方便大家快速了解刘小乐教授研究的精华,本次小编只重点介绍刘小乐教授作为末尾通讯,以开发算法或网站为核心的20项研究成果。


2.癌症表观遗传学

在这个研究方向下,刘小乐教授团队一直在开发算法来促进表观基因组数据的分析,并使用综合建模方法来研究肿瘤发生和进展的基因组转录和表观遗传基因调控机制。同时,团队也正在开发新方法,利用丰富的公共 ChIP-seq 数据来推断调节表达的功能增强子,并了解表观遗传药物在癌症中的靶点和特异性。


刘小乐教授在这个领域的探索最早可以追溯到20多年前她还是个学生的时候,当时染色质免疫沉淀-cDNA微阵列杂交 (ChIP-array) 还是研究全基因组蛋白质-DNA相互作用和转录调控的流行方法,她开发了一种名为MDscan的算法,该方法结合了两种广泛采用的主题搜索策略(单词枚举和位置特定权重矩阵更新)的优点,不仅可用于在 ChIP 阵列实验中查找DNA基序,还可在其他实验中查找DNA基序。此后,刘小乐教授不断开发和优化算法,和哈佛大学Dana-Farber癌症研究所的Clifford A. Meyer, Myles Brown,李蔚等大牛开展了深入的长期合作,在这个领域内产出不断。


最著名的MACSModel-based Analysis of ChIP-Seq data)算法就是刘小乐教授和李蔚教授在2008年共同开发的,MACS根据经验对ChIP-Seq标签的位移大小进行建模,并使用它来提高预测结合位点的空间分辨率。MACS还使用动态泊松分布来有效捕获基因组中的局部偏差,从而实现更稳健的预测。该算法自提出以来引用量已超过1万,是目前最主流的用于分析ChIP-seqCUT&Tag等数据的peak calling的工具。该算法也一直在更新维护,从2008年的1.0版本,到2011年的2.0版本,截至目前已更新至最新版本3.0

1. MACS工作流程


另一个从ChIP芯片和ChIP-Seq数据中表征全基因组蛋白质-DNA相互作用模式的名为CEAScis-regulatory element annotation system)的算法随后被提出,该算法能提供重要基因组区域(例如单个染色体、启动子、基因体或外显子)的ChIP 富集汇总统计数据,并推断最有可能受到调控的基因正在研究的结合因子。CEAS还能够可视化特定基因组区域的平均ChIP富集信号,特别是允许观察连续和广泛的ChIP富集,这种富集可能过于微弱而无法从ChIP峰中检测到。

 

图2. CEAS的输入、模块和输出的流程图


随着来自ChIP芯片和ChIP-seq的数据量不断增加,对标准、集成和可重复的生物信息学数据分析平台提出了挑战。刘小乐团队开发了一个名为Cistrome的网页版应用程序,目标是提供一个基因组顺式作用元件分析的综合性数据库,通过收集来自GEO,ENCODE等公共数据库中的ChIP-seq, DNase-seq, ATAC-seq等原始数据,采用统一的分析方法,用bwa比对参考基因组,然后采用MACS2进行peak calling, 将分析的结果加以整合,做成了在线数据库。Cistrome可在 http://cistrom.org/ap/ 上获取。

图3. Cistrome分析平台内的工作流程


此后,刘小乐团队又紧接着开发了Cistrome Data BrowserCistrome-GOCistromeDB Toolkit等网页版分析工具,做表观遗传的小伙伴绝对不容错过。简单介绍一下,Cistrome Data Browser主要用于展示所收集和整理的公共可获取的人和小鼠ChIP-seqDNase-seqATAC-seq数据;Cistrome-GO可以做ChIP数据集靶基因的功能富集分析;CistromeDB Toolkit主要基于所收集数据的分析结果为用户提供搜索功能,以便用户快速使用这些数据来回答他们的研究问题。

Cistrome DB数据库的作者们2020年还在Quantitative Biology期刊上发表了题为“Cistrome Data Browser and Toolkit: analyzing human and mouse genomic data using compendia of ChIP-seq and chromatin accessibility data”的文章,文中介绍了Cistrome DBToolkit的构建方法和详细的使用教程,并具体地描述了一些特定的使用场景,譬如该如何筛选有意义的数据等,文中也表达了Cistrome DB将被不断地维护和更新,希望能为生物医学领域提供有用的数据资源和分析工具的愿景。

Cistrome DB是人类和小鼠中统一处理的转录因子TF ChIP-seq(约11,000个)和染色质图谱(约12,000个组蛋白标记的ChIP-seqDNase-seq)的集合,但是如何有效利用这些数据来推断调控从人类或小鼠差异或相关基因表达分析中得出的基因集的转录调节因子这一问题仍然有待解决。因此刘小乐团队开发了Lisa (http://lisa.cistrome.org/) 来预测差异表达或共表达基因集的转录调节因子 (TR)。这项题为“Lisa: inferring transcriptional regulators through integrative modeling of public chromatin accessibility and ChIP-seq data”的研究成果于2020年发表在Genome Biology期刊上。


基于输入的基因集,Lisa使用组蛋白标记ChIP-seqATAC-seq构建与这些基因调控相关的染色质模型。Lisa 使用TR ChIP-seq 峰或估算的TR结合位点,利用计算机删除技术探测染色质模型,以找到最相关的TR

图4. Lisa算法的示意图

为了进一步揭示基因表达调控的分子机制,刘小乐团队于2013年在Nature Protocols期刊上发表了题为“Target analysis by integration of transcriptome and ChIP-seq data with BETA”的研究论文,开发了名为BETABinding and expression target analysis)的算法,用于整合ChIP-seqRNA-seq数据。BETA具有三个功能:(i)预测该因子是否具有激活或抑制功能;ii)推断因子的靶基因;iii)确定因子及其合作者的主题,这可能调节因子的激活或抑制功能。BETA也可以在 http://cistrome.org/上免费使用。

图5. BETA工作流程图


3.CRISPR筛选

在这个研究方向下,刘小乐团队开发了用于全基因组 CRISPR 筛选的设计(SSC)、分析 (MAGeCK)、可视化 (VISPR) 和全面分析pipelineMAGeCKFlute)的计算方法。他们利用这写些算法成功识别了乳腺癌和前列腺肿瘤进展和耐药性的关键基因。此外,他们还开发 CRISPR 筛选平台,以了解增强子和长链非编码 RNA 的功能,并识别癌症中的合成致死基因对,从而优化癌症精准医疗。


众所周知,使用 CRISPR/Cas9 介导的敲除或 dCas9 融合介导的抑制/激活 (CRISPRi/a) 进行全基因组功能筛选是发现表型相关基因功能的强大技术。刘小乐团队系统地评估了有助于基于CRISPR的筛选中单向导RNAsgRNA)效率的DNA序列特征,开发了一种名为SSC(Spacer Scoring for CRISPR)的序列模型,用于预测CRISPR/Cas9敲除实验中的sgRNA效率,研究成果于2015发表在Genome Research期刊上,题为“Sequence determinants of improved CRISPR sgRNA design”。

图6. sgRNA选择和分类程序的示意图


在分析CRISPR 筛选结果方面,刘小乐团队提出了名为MAGeCK(Model-based Analysis of Genome-wide CRISPR/Cas9 Knockout)的分析算法,于2014年发表在Genome Biology期刊上,用于在基因组规模的CRISPR/Cas9敲除筛选中优先考虑单向导RNA、基因和通路。与当时其他方法相比,MAGeCK可同时识别阳性和阴性选择的基因,并在不同的实验条件下报告了可靠的结果。

图7. MAGeCK 算法概述


随后,刘小乐团队又提出了MAGeCK-VISPR算法,这是一种用于CRISPR 筛选的综合质量控制(QC)、分析和可视化工作流程,核心目的是收集不同级别的质量控制(QC)测量值。MAGeCK-VISPR定义了一组QC措施来评估实验的质量,并包括一个最大似然算法,用于在多种条件下同时调用必需基因。该算法使用广义线性模型对不同的效应进行反卷积,并采用期望最大化来迭代估计sgRNA敲除效率和基因本质性。MAGeCK-VISPR还包括VISPR,这是一个用于交互式可视化和探索QC和分析结果的框架。这项工作于2015发表在Genome Biology期刊上。

图8. MAGeCK-VISPR工作流程概述


2019年,刘小乐团队提出了MAGeCKFlute算法,结合了MAGeCKMAGeCK-VISPR算法,并整合了额外的下游分析功能。MAGeCKFlute与其他工具的区别在于其全面的pipeline,其中包含一系列用于分析CRISPR筛选数据的功能。这项题为“Integrative analysis of pooled CRISPR genetic screens using MAGeCKFlute”的研究成果发表在Nature Protocols,描述了如何使用MAGeCKFluteCRISPR筛选进行质量控制(QC),归一化,批次效应去除,拷贝数偏倚校正,基因命中鉴定和下游功能富集分析。在运行LinuxMac OS且支持R的台式计算机上完成整个MAGeCKFlute pipeline需要大约3小时。

9. 使用MAGeCKFlute进行CRISPR-Cas9筛选分析的示意图


4.癌症免疫学

在这个研究方向下,刘小乐团队致力于开发新颖的计算算法,以系统地对不同免疫细胞类型的丰度进行解卷积。对来自TCGA1万多个肿瘤样本应用反卷积方法,发现了与肿瘤浸润免疫细胞的广泛临床关联。


在癌症免疫这个领域内,刘小乐团队最早的研究可以追溯到2016年发表于Nature Genetics上的一篇题“Landscape of tumor-infiltrating T cell repertoire of human cancers”的研究论文,在这项工作中,刘小乐团队开发了一种名为TRUST(TCR repertoire utilities for solid tissue)的使用双端RNA-seq数据对CDR3区域进行从头组装的新计算方法,并将其应用于癌症基因组图谱(TCGA)的9142个样本。与之前基于RNA-seq的分析相比,作者组装了更清晰的CDR3序列,从而能够对肿瘤微环境的TCR库进行更深入的分析。研究观察到肿瘤和宿主免疫系统之间有趣的相互作用,并确定了可能对多种免疫疗法有用的潜在治疗靶点。

图10. 利用TRUST算法从RNA-seq数据组装CDR3序列的工作流程


TRUST算法用于直接从组织或血液RNA-seq数据中从头组装免疫受体库,随着scRNA-seq技术的进步,刘小乐团队将TRUST算法重新设计为TRUST4其功能显着增强,除了在组装更长(甚至全长)受体库时更快、更灵敏,TRUST4还可以从scRNA-seq数据调用库序列,无需V(D)J富集,并且与 SMART-seq 5' 10x Genomics平台兼容。这项题为“TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data”的工作于2021年发表在Nature Methods期刊上。TRUST4主要是用来分析实体组织,包括肿瘤组织的RNA测序的数据的TCRBCR序列。

图11. TRUST4在scRNA-seq数据上的性能


除了TRUST算法,刘小乐团队在2016年提出了一种肿瘤免疫细胞解卷积的新方法,来研究肿瘤浸润免疫细胞及其与癌细胞的相互作用,并分析了TCGA23种癌症类型中六种免疫浸润细胞的丰度。研究成果题为“Comprehensive analyses of tumor immunity: implications for cancer immunotherapy”发表在Genome Biology上,作者通过蒙特卡罗模拟、基于DNA甲基化的推论的正交估计以及病理评估对通过计算推断的进行了验证,并构建了一个用户交互式网站TIMERTumor Immune Estimation Resource),将估计的免疫细胞丰度以及相关发现作为公共资源,供生物医学研究人员解决癌症免疫学中更有趣的问题。

图12. 估计肿瘤浸润免疫细胞丰度的计算方法


随后,刘小乐团队进一步将TIMER优化,于2017Cancer Research期刊上发表了一篇题为“TIMER: A Web Server for Comprehensive Analysis of Tumor-Infiltrating Immune Cells”的论文,全面地研究了肿瘤免疫相互作用的分子特征。通过反卷积算法,作者针对32种癌症类型的10897个肿瘤预先计算了6个肿瘤浸润免疫子集(B细胞、CD4+ T细胞、CD8+ T细胞、巨噬细胞、中性粒细胞、和树突状细胞)的水平。TIMER提供6个主要分析模块,允许用户交互式探索免疫浸润与多种因素之间的关联,包括基因表达、临床结果、体细胞突变和体细胞拷贝数改变。

图13. 网站上TIMER模块的概述


TIMER是当时第一种允许用户对肿瘤免疫学、临床和基因组数据进行综合分析的方法。作者承诺对TIMER网络服务器的开发和维护进行至少5年,实际上,在2020年,为了降低分析复杂的肿瘤免疫相互作用的障碍,刘小乐团队进一步开发出了更强大的TIMER 2.0,不只使用一种算法,而是使用六种状态为癌症基因组图谱(TCGA)或用户提供的肿瘤概况提供更可靠的免疫浸润水平估计。这项题为“TIMER 2.0 for analysis of tumor-infiltrating immune cells”的工作发表在Nucleic Acids Research期刊上。


TIMER 2.0提供了四个模块用于研究免疫浸润与遗传或临床特征之间的关联,以及四个模块用于探索 TCGA 队列中与癌症相关的关联。每个模块都可以生成功能热图表,使用户能够轻松地同时识别多种癌症类型的显着关联。总体而言,TIMER 2.0网络服务器提供了肿瘤浸润免疫细胞的全面分析和可视化功能,受到了更多癌症免疫学研究界的喜爱和赞赏,也被被大家广泛引用。


除了研究免疫浸润,刘小乐团队在2018年开发出了一种名为TIDE(Tumor Immune Dysfunction and Exclusion)的计算框架,以识别肿瘤免疫逃逸背后的因素,并对肿瘤样本基因表达谱中肿瘤免疫逃逸的可能性进行可靠的评估。这项题为“Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response”的工作发表于Nature Medicine期刊上。TIDE189项人类癌症研究的数据进行了整合和建模,总共包含33,197个样本,作者假设并验证了模拟肿瘤免疫逃逸的准确基因特征可以作为预测ICB反应的可靠替代生物标志物。

图14. TIDE 特征预测 ICB 免疫治疗反应


此外,识别可靠的药物反应生物标志物是癌症研究中的一项重大挑战。刘小乐团队于2018年提出了耐药性计算分析CARE(computational analysis of resistance),这是一种专注于靶向治疗的计算方法,用于从细胞系化合物筛选中推断药物功效的全基因组转录组特征。这项题为“Genome-Scale Signatures of Gene Interaction from Compound Screens Predict Clinical Efficacy of Targeted Cancer Therapies”的研究成果发表在Cell System期刊上。


CARE输出基因组规模分数,以测量药物靶基因如何与其他基因相互作用,从而影响化合物筛选中的抑制剂功效。当使用临床研究的转录组数据进行评估时,CARE 可以比其他计算方法和基因组学实验的特征更好地预测治疗结果。因此,CARE 应该能够使用化合物筛选数据大规模推断靶向治疗的反应生物标志物和药物组合。

图15. CARE用于预测靶向癌症治疗的临床疗效


5.单细胞技术

在这个研究方向下,刘小乐教授团队正在开发用于单细胞 RNA-seq (scRNA-seq) ATAC-seq (scATAC-seq) 数据综合分析的计算方法 (MAESTRO)。通过将公共转录因子(TFChIP-seq 数据集集成到 Cistrome DB 中,他们正在阐明肿瘤微环境的调控网络,并确定不同免疫细胞之间的关键调控因子。同时他们也在开发用于空间转录组数据分析的新颖计算算法。


刘小乐团队在2020年提出了MAESTRO(Model-based Analyses of Transcriptome and RegulOme),这是一个全面的开源计算工作流程 (http://github.com/liulab-dfci/MAESTRO),用于处理来自多个平台的scRNA-seq和scATAC-seq数据。这项题为“Integrative analyses of single-cell transcriptome and regulome using MAESTRO”的研究成果发表在Genome Biology期刊上。MAESTRO提供预处理、比对、质量控制、表达和染色质可及性定量、聚类、差异分析和注释等功能,在单细胞水平上对染色质可及性的基因调控潜力进行建模。此外,MAESTRO还支持使用预定义的细胞类型标记基因进行自动细胞类型注释,并从scRNA-seq差异基因和scATAC-seq差异peak中识别驱动调节因子。

图16. MAESTRO工作流程概述


6.说在最后

看到这,我们已经把刘小乐教授近些年来的以开发算法为核心的主要研究成果都学习完了。本篇推文可以说是全网截止到目前对刘小乐教授科研成果进行的最系统、最全面的总结了。


其实除了科研成果,刘小乐教授也经常跟大家分享她对生物信息学研究的思考,她写的一篇题目为生物信息学研究的几个阶段(Levels of Bioinformatics Research)的博文也非常值得大家去学习。她在这篇博文中提到,一个生物信息学者的成长,从最初级的“为了建模而建模”,经历“分析自己实验室或合作者的未发表的数据来做出新的生物发现”,到“面向生物医学领域的新的高通量技术来开发计算方法和数据库”以及“有效的整合公共数据做出好的生物学发现”三个中间级别,最后进化至“对大联合体产生的海量数据提供关键的整合和建模”这一最高“X”级别。刘小乐教授毫无疑问是最高“X”大神级别的人物,作为生物信息领域杰出的女科学家,她的故事不断激励着一众生信小白。同时,她带领团队开发出的一系列的用户交互式网站显示出了绝对的专业性,极大地促进了生物医学领域的发展。相信刘小乐教授进军AI制药领域也能取得卓越的成就,让我们一起期待未来她给我们带来更多的惊喜!



参考文献

1.Liu, X. Shirley, Douglas L. Brutlag, and Jun S. Liu. "An algorithm for finding protein–DNA binding sites with applications to chromatin-immunoprecipitation microarray experiments." Nature biotechnology 20.8 (2002): 835-839.

2.Zhang, Yong, et al. "Model-based analysis of ChIP-Seq (MACS)." Genome biology 9 (2008): 1-9.

3.Shin, Hyunjin, et al. "CEAS: cis-regulatory element annotation system." Bioinformatics 25.19 (2009): 2605-2606.

4.Liu, Tao, et al. "Cistrome: an integrative platform for transcriptional regulation studies." Genome biology 12 (2011): 1-10.

5.Zheng, Rongbin, et al. "Cistrome Data Browser: expanded datasets and new tools for gene regulatory analysis." Nucleic acids research 47.D1 (2019): D729-D735.

6.Li, Shaojuan, et al. "Cistrome-GO: a web server for functional enrichment analysis of transcription factor ChIP-seq peaks." Nucleic acids research 47.W1 (2019): W206-W211.

7.Wang, Su, et al. "Target analysis by integration of transcriptome and ChIP-seq data with BETA." Nature protocols 8.12 (2013): 2502-2515.

8.Xu, Han, et al. "Sequence determinants of improved CRISPR sgRNA design." Genome research 25.8 (2015): 1147-1157.

9.Li, Wei, et al. "MAGeCK enables robust identification of essential genes from genome-scale CRISPR/Cas9 knockout screens." Genome biology 15 (2014): 1-12.

10.Li, Wei, et al. "Quality control, modeling, and visualization of CRISPR screens with MAGeCK-VISPR." Genome biology 16 (2015): 1-13.

11.Wang, Binbin, et al. "Integrative analysis of pooled CRISPR genetic screens using MAGeCKFlute." Nature protocols 14.3 (2019): 756-780.

12.Li, Bo, et al. "Landscape of tumor-infiltrating T cell repertoire of human cancers." Nature genetics 48.7 (2016): 725-732.

13.Song, Li, et al. "TRUST4: immune repertoire reconstruction from bulk and single-cell RNA-seq data." Nature methods 18.6 (2021): 627-630.

14.Li, Bo, et al. "Comprehensive analyses of tumor immunity: implications for cancer immunotherapy." Genome biology 17 (2016): 1-16.

15.Li, Taiwen, et al. "TIMER: a web server for comprehensive analysis of tumor-infiltrating immune cells." Cancer research 77.21 (2017): e108-e110.

16.Li, Taiwen, et al. "TIMER2. 0 for analysis of tumor-infiltrating immune cells." Nucleic acids research 48.W1 (2020): W509-W514.

17.Jiang, Peng, et al. "Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response." Nature medicine 24.10 (2018): 1550-1558.

18.Jiang, Peng, et al. "Genome-scale signatures of gene interaction from compound screens predict clinical efficacy of targeted cancer therapies." Cell systems 6.3 (2018): 343-354.

19.Wang, Chenfei, et al. "Integrative analyses of single-cell transcriptome and regulome using MAESTRO." Genome biology 21 (2020): 1-28.

20.Lynch, Allen W., et al. "MIRA: joint regulatory modeling of multimodal expression and chromatin accessibility in single cells." Nature methods 19.9 (2022): 1097-1108.

21.Zhang, Yi, et al. "MetaTiME integrates single-cell gene expression to characterize the meta-components of the tumor immune microenvironment." Nature communications 14.1 (2023): 2634.


更多个性化方案设计

扫码领取

适合临床医生的科研方案







最新文章汇总(持续更新ing)


最新热点方向

1、今天开心,安利一个超好发版干湿结合思路

2、掌握孟德尔随机化发20分不是梦

3、研究中草药难发SCI?

4、公开数据纯分析发7+,内容不卷赢在选题

5、人手一篇的“淋巴转移”,摇身一变50+


生信人课堂

1、临床医生科研规划

2、热点基因集预后实操课程

3、孟德尔随机与基因组

4、R语言入门


课题设计 | 生信分析 | 数字产品

概普生物 让科研丰富

生信人

专注于基因技术相关知识分享
扫码关注 获取更多






END