ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
105 stars 30 forks source link

专访邱肖杰博士,揭秘RNA速度矢量场和“细胞命运”预测器dynamo、Monocle 2/ 3算法的开发史 #3185

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/pkImvh7V32GgmQDUew9xNg

ixxmu commented 1 year ago

专访邱肖杰博士,揭秘RNA速度矢量场和“细胞命运”预测器dynamo、Monocle 2/ 3算法的开发史 by 单细胞测序网



《时空对话》第16期
邱肖杰博士


2022年2月,美国麻省理工学院教授Jonathan Weissman组博士后邱肖杰为共同一作的研究在Cell(《细胞》)杂志在线发表,从此,能够预测细胞发育的过程和最终命运的“细胞命运”预测器正式面世。

除“细胞命运”预测器dynamo外,邱肖杰博后还在单细胞基因组学领域做出了不少重大贡献。例如与华大基因紧密合作对大视场、高精度空间基因组学的Stereo-seq建模研究。此外,他开发的Monocle 2/3,可以准确、稳健地重建复杂的发育轨迹来深入分析scRNA-seq 数据,成为了单细胞测序领域用得最多的工具之一。

近日,《时空对话》栏目有幸邀请到美国麻省理工学院教授Jonathan Weissman组博士后邱肖杰进行访谈,围绕“细胞命运”预测器dynamo的开发、Monocle算法的开发过程、心得,以及其在单细胞领域的其他最新进展进行分享。

邱肖杰博士


邱肖杰博士是麻省理工学院Whitehead研究所,美国科学院院士Jonathan Weissman 实验室的博士后研究员,专注于应用新的单细胞基因组学技术(包括新的基于代谢标记的单细胞测序或空间基因组学)和构建新的计算框架来了解、预测和操纵细胞的命运。


邱肖杰在华盛顿大学攻读分子与细胞生物学博士学位,师从单细胞测序领军人物Cole Trapnell教授。邱肖杰博士期间的工作对单细胞基因组学领域做出了重大贡献,例如他开发的Monocle 2/3,可以准确、稳健地重建复杂的发育轨迹来深入分析scRNA-seq 数据。这些工具成为了单细胞测序领域用得最多的工具之列。通过与 Sreeram Kannan 密切合作,他还开发了 Scribe(从单细胞时间序列数据集中检测直接因果关系的基因调控关系)。此外,他最近的工作还包括与匹兹堡大学医学院邢建华课题组联合开发了一个可预测细胞未来分化命运的模型dynamo(相关开源工具包链接: https://github.com/aristoteleo/dynamo-release)。


请您简单介绍一下您目前的主要研究方向以及取得的研究成果和进展。您选择从事该研究方向的初衷是什么?

邱肖杰博士:我现在的研究主要包括两个大的方向,第一是将定性和预测模型引入单细胞基因组学中,我们可以看到,目前主流的分析工具,包括Seurat、Scanpy以及我以前做的Monocle等,应用于分析时更偏向于描述性和统计性。因此,我想把一些更具有推断性及定量性的描述与分析方法引入单细胞分析领域。用一些更具预测性的物理方法去推断生物现象,是我一直以来都特别想做的事情。在这方面,我已经发了一篇刊登于Cell的关于dynamo的一篇理论文章。如今,我想继续往下推进,一方面是要用一些机器学习的方法将其进行改进,另一方面我们想把这个方法与更多的数据、更多的新技术类型整合在一起。此外,我还想把这种更具推断性的模型引入到空间组合里面去。我们最近也在开发一些新的工具包,包括Spateo (https://www.biorxiv.org/content/10.1101/2022.12.07.519417v1)。Spateo 是一个新的工具包 (https://github.com/aristoteleo/spateo-release)  将先进的多维时空模型引入到单细胞分辨率的空间转录组学中。这是与深圳华大生命科学研究院(刘龙奇、刘石平、 Yinqi Bai等人)的一次的伟大合作,利用了可以说是迄今为止最好的空间转录组学技术Stereo-seq。

我很小的时候就开始对生物特别感兴趣,但同时我对计算机和物理这两方面也特别感兴趣。因此,我一直以来想做的工作,就是想把生物变得像物理或像计算机一样,变得可预测、可建模、可描述。在以前,这一点是很难实现的。在我读研究生的时候,我做出了一些理论模型,但它们都只是通过现有的调控网络把现有的方程写出来后进行模拟。然而,随着新技术的诞生,特别是单细胞技术的诞生,可以为我们提供非常精确的测量。所以我一直在思考,能否把我以前做模拟的分析引到单细胞领域。但是这里面也存在几个问题:第一个问题是,之前的模拟分析其实是基于一些自人为编写的方程,因此是偏人造的,不够可靠。第二个问题是,这些分析一般都是小规模的,然而现在的数据却非常高维,数据量也特别大。因此,我将传统的动力系统方法与这种高维的、可以处理大数据的机器学习的方法进行结合。这就是我进行这方面研究的初衷,也是我解决这些问题的方式。

您和团队成员联手匹兹堡大学医学院邢建华课题组共同开发了一个可预测细胞未来分化命运的模型dynamo,相关论文在今年2月以Mapping transcriptomic vector fields of single cells为题发表在Cell上。请您简单介绍一下该模型,该成果对生命科学领域的重要意义体现在何处?主要应用于哪些方面?

邱肖杰博士:这篇文章很重要的一点,就是我们用dynamo直接从单细胞数据中学习一个向量场。这个向量场可以理解为描绘细胞发育的一个方程,也就是说我们直接从这种高维的单细胞数据上面选取出一个描绘细胞发育的方程,然后用这个方程来做一些预测。

第一,我们可以预测它将来发育的命运轨迹;第二,我们可以用它来推断决定细胞发育路径的关键基因,以及之间的基因调控网络。第三,我希望借此做一些预测,所以我们把部分物理方法应用在这里,比如说最小作用量路径。最小作用量路径可以被用来预测最优的细胞生成路径,且预测精度非常高。根据已有的数据进行对比后发现,我们可以达到接近90%的精度,相当于可以把关键的调控基因中间所需要的关键转录因子找出来。最后一点,我们可以在计算器里面实现基因敲掉或敲入 的预测,预测敲掉或敲入基因后对细胞的影响。基于此,将来我们不需要任何Perturb-seq,不需要做CRISPR之类的这些knockout或者knockin,生物科学们、研发者们就直接可以用dynamo模型做细胞命运的预测。

对于这点我还想稍微再补充一些内容,首先,这个方法之所以能成功研发,是因为邢老师的团队提供了很多理论上、概念性的帮助。这也是与他的研究生张衍博士(现在是Illumina公司的研究人员)合作的一个很好的经验。其次,正因为最近单细胞领域的数据以及新技术的诞生,才使我们开发这个预测器成为了可能。过去几年,有一种可以把时间展示出来的一种单细胞的测序方法—— metabolic labeling enabled scNA-seq成功开发,得益于此,我们能够解决很多RNA velocity存在的问题,从而实现预测以及推断。

您是Monocle 2/3单细胞分析算法运行工具的主要开发人员之一,请您简单介绍一下Monocle算法的开发过程,期间是否有遇到一些难题?最终是如何解决的?

邱肖杰博士:我们开发的过程中确实遇到了不少问题。最初,我在进组的时候做的并不是这个方向,但十分幸运的是,由于我的数学背景比较好,我通过自己的争取,让导师信任我能够胜任。其实这对于国内的留学生也是一个启示,说明一些中国学生到国外读书还是具有一定的优势的。然后,在开发过程中,我们也遇到了很多波折。刚开始,我知道理论上应该用 Principal graph这个方法,因为单细胞monocle伪时间分析实际上只处理一条线性轨迹(也就是说是没有分叉的),随后我意识到如果没有分叉会是一个问题,因为生物系统涉及许多命运分叉。在统计上面就有一个非常好的方法, 叫做principal curve,但是它没法处理分支,所以我当时就意识到肯定是要将其生成多个分支,从而产生一个图。Principal curve大概思想是说他要选出一条轨迹,轨迹要正好穿过数据的中心。然后我当时想,我们应该推广这个轨迹概念,把它变成一个“tree”或者变成一个“graph”,这样才可以解决之前的问题。

结合我学过的物理、计算机、化学等方面的背景,我当时就不局限于生物领域里,反而在多学科领域中寻找解决办法。后来我找到了一篇发表在计算机杂志上的文章,结合该方法,我将这些内容向导师展示。刚开始我的导师还不是很相信这种方法,因为他觉得这个数据量比较低。后来,我提供了足够的数据证明,成功说服了他,也让他变得特别感兴趣,同时也特别信任我。这基本上就是Monocle 2算法开发的过程。实际上,从我们有这个想法到文章发表,中间大概八、九个月的时间。我在这个过程当中,衍生出了一个心得——当你有一个很好的想法,你需要找到一个对应的方法,总而言之,一项工作的完成不能总靠灵光一闪。相对于Monocle 2来说,Monocle 3的开发比较简单,因为Monocle 3就是把Monocle 2的“tree”变成一个“graph”以及其他的树状结构。


我们了解到,您还开发了 Scribe——从单细胞时间序列数据集中检测直接因果关系的基因调控关系。请您简单介绍一下该成果的开发初衷。

邱肖杰博士:这个其实是受Monocle2开发过程中的一个现象启发的。如果把这个基因按照“演化时间”pseudotime去排序,我们会发现关键转录因子的基因表达动态大概会比“target”的出现得更早。后来有一次我做了一个讲座,有个电子工程领域的教授对我研究的这个东西特别感兴趣,我就跟他说了相关想法。后来我就跟他的一个学生一起开发了一个新算法。这个算法大概的想法是:从转录因子到它的下游的目标之间的信息及信息的传递在时间上有一定的delay。我们基本上用的数学方法就是conditional,考虑了时间上的delay。我们设定我们已经知道基因之前的状态,因为之前的状态会决定他将来的状态,然后在这个基础上,我们再看转录因子是不是能够把它之前的信息传到目标处,如果这个信息要比假设里这个基因之前的expectation上,如果在它之上有比较强的性能就说明这个转录因子跟下游目标应该是有一定联系的。

深圳华大生命科学研究院、中国科学院广州生物医药与健康研究院、MIT(麻省理工学院)等团队合作,利用华大自主时空组学技术Stereo-seq解析了在小鼠胚胎发育过程中的转录组表达的时空动态变化,构建了小鼠器官发育时空转录组图谱,请您谈谈该图谱的重要意义。

邱肖杰博士:图谱本身意义不一定很大,这个技术本身的突破意义更大。因为Stereo-seq是个领先技术,首次实现了单细胞精度,甚至亚细胞精度的基于测序的空间组学的方法。还有另外一点是它的大视场,可以一次测量整个胚胎。我觉得这个是非常震撼、非常强的,以前的Slide-seq、VISIUM能测的区域比较有限,相当于只看到里面的一部分。所以,Stereo-seq基本上就解决了精度、分辨率的问题以及视场的问题。因此我觉得这是一个非常有突破性的方法,现在美国这边有很多学者在做这方面的研究,也有一些公司“跃跃欲试”。我希望华大能够把这个技术继续推进,进一步优化,把它的市场化做得更好。如果能够继续优化,我认为在这方面中国是有可能超越美国的。

回到这个图谱本身,我觉得它的真正意义是:它预示了在将来我们可以把这段时空的动态、整个图谱做出来,甚至是可以把整个图谱以3D的方式呈现出来,那么如果用一些数学工具,包括我开发的那些工具,理论上我们可以实现观察单个细胞是如何随着时空的变化变成一个完整的个体的整个发育过程。

然后对准整个器官的多个切片,将来甚至可以建立出一个真正的3D的电脑里面的模型,你可以在这上面作为一个参考,大家可以去看里面的基因表达是否发生进化。同时你甚至可以用它做一些预测,你可以敲掉某个基因,看这个基因它是不是会影响周围的细胞,多维的细胞是不是会影响其他细胞,以及其他细胞里面的某些特定基因。这可能是它长期的意义。

您如何看待单细胞测序技术?单细胞测序技术面临着哪些机遇和挑战?

邱肖杰博士:如果从2009年开始算,单细胞技术大概也就发展了不到15年的时间。这个时间还比较短,有很多技术还没成熟。目前面临的最显著的问题是单细胞测序的敏感度还是不高。所以我觉得其中一个方向就是需要去提高敏感性。但是,这可能已经不全是单细胞领域的问题,反而可能是化学上的问题。因为它已经涉及到纳米级别,所以可能需要一些化学上的突破。另外,我觉得怎么去解释、分析它,可能是另一个的方向。我刚才提到了我们的dynamo方法可以做出一些预测,但是我们怎么能把这个东西做得更好。目前,我们的一些单细胞技术已经形成了一个生态,它不仅仅可以测RNA,还可以测蛋白质,以及ATAC-seq等等。所以我们是否可以把我们的预测性模型推广到其他的modality下面去,这也是另外一个很重要的问题。

我其实想做的是,把我们的单细胞多组学数据集构建出一个动力学的模型,我们可以用它预测在下一个时刻,这个细胞是怎么表达的,然后RNA、蛋白质是怎么表达的等等。所以这个是个非常有意思的方向。

至于空间组学,我觉得它还有很多问题正待解决。第一,如何真正实现亚细胞定位以及3d重构的测量,我觉得是一个很大的问题。第二,能否把多组学整合到单细胞领域也是一个很重要的问题。因为现在基本上还是RNA,蛋白质和ATAC比较少,要是能把蛋白质、ATAC等等这些整合进去,其实也是一个特别有意思的问题。第三,我觉得可能跟我的实验室有一定关系,即能不能把这些单细胞的东西跟Lineage tracing结合起来,如果可以结合,我们就能够知道这个细胞跟周围的某个细胞在发育的历史上的关系。最后,能否把其他的一些基因组学的方法,包括CHRISP、基于CHRISP的perturb-seq也可以整合进来。以上就是我目前想到的几个可能要改进的大方向。

那么在单细胞技术和空间组学领域,您如何看待干实验和湿实验?两者的关系是怎样的?

邱肖杰博士:它们是相互促进、相辅相成的。不仅在单细胞领域,在历史上很多事情也是一样的道理。我举个例子,伽利略发明了望远镜以后,通过这项新的技术,人们可以观察天体的运动,许多物理方法随之诞生,比如说行星三大定律。人们在启发下,一步步研究天体的运动,进而推动牛顿力学、万有引力学说的诞生。反观我们的领域,科学与技术本来也是不分家的。很多情况下我们有了一个新的技术,但是我们没有一个好的预测模型去描述它,所以我们要把预测模型改进。另一方面,我们做这些分析的时候,我们会意识到,如果我们只研究RNA的数据而不去研究ATAC,我们会发现其实很多时候我们预测得并不会很准确,因为我们的measurements是不够的。因此这也会一直促进我们去开发新的方法。总的来说,这两个东西是相辅相成、相互促进的,但是目前很少有实验室能够把这两个方向都做得很好,所以这也是我将来想慢慢做的一个方向。如果我以后建实验室的话,刚开始我会以为计算的方式先站住脚跟,开拓一个方向,当到了一定程度以后,我希望我能够继续在实验上、技术上相互改进,最终达成两者相辅相成的局面。

您的工作和经历是如此精彩和让人称赞,请问您还有其它愿意和我们分享的吗?

邱肖杰博士:对于我大学本科到研究生到博士这个过程,用几个词概括的话,那就是“喜欢”跟“热爱”。其实我的本科并不是非常有名的高校,在我本科过程中也没有作出什么成就;在读研究生时,我也没有得到很多指导;在出国后,我也遇到了很多阻碍。但是就如我前面所言,有时候导师不一定知道你适合哪个课题,所以我们应该凭借自己的努力去争取。不管你现在处在什么样的情况,你要做的就是保持积极乐观的心态,把它当作对自己的磨练,学会从困境中看到希望。我就是靠这样的心态,慢慢地一步步超越自己、改变自己。很多时候,只需要我们自己有热爱,有坚持,有恒心把事情做好,我们就可能能够取得很好的成就,而这些和我们的智商、出身都是没有关系的。我们只需要问自己:你喜不喜欢?能不能够坚持下去?如果我们想把科研做好,成为一流的科学家,我们就必须要热爱,要有持之以恒的毅力,有能够逆境中拼搏的强劲勇气。

关于《时空对话》栏目

单细胞测序网、时空组学网联合开展“时空对话”栏目。拟邀请100位单细胞测序领域的全球顶尖科学家、企业家、学者、投资人、青年研究员、博士等围绕着单细胞测序的最新研究、技术进展、临床应用等多方面进行访谈,传递价值观念、深度见解,为行业发展提供方向。


-end-

进入单细胞行业交流群,请在后台回复 “进群”