ixxmu / hugo_duty

https://test.vercel.com
2 stars 1 forks source link

重生之我在联合国秘书长生物化学武器调查机制项目中做生信软件开发! #508

Closed ixxmu closed 3 weeks ago

ixxmu commented 3 weeks ago

https://mp.weixin.qq.com/s/gNqnOkH00ScsaEs9piLDEg

ixxmu commented 3 weeks ago

重生之我在联合国秘书长生物化学武器调查机制项目中做生信软件开发! by 生信技能树

PHDtools: 一款诞生于我参与联合国秘书长生物化学武器调查机制项目中的病原生物信息分析在线软件

写在前面的
今天收到了我以前的课题组(中国科学院武汉病毒研究所)的师妹和老师反馈给我的信息。他们在今年上半年的一次联合国秘书长指定实验室生物化学武器调查机制(UNSGM)项目中使用我博士期间开发的在线生物信息分析软件PHDtools对30份模拟的未知病原测序样本进行了宏基因组分析、系统演化溯源分析、遗传变异分析及疫情爆发风险评估。他们使用我的软件得到的所有分析结果准确无误,斩获了满分成绩。他们得到的成绩位列于参与项目的全球不同国家的高等级生物安全实验室中的第一名。当我的师妹和老师兴奋地告诉我这条让她们激动无比的消息时,我内心的回忆被逐渐勾起,曾经与PHDtools和UNSGM项目有关的回忆在我脑海中澎涌而出。

UNSGM项目:贯穿我整个硕博时光的艰巨项目

        UNSGM项目是United Nations Secretary-General's Survey Mechanism的缩写,中文翻译是联合国秘书长调查机制。对于不了解这个项目的人而言,光看名字只能知道这个项目和联合国有关系,但是很难联想到这个项目和生物安全、生物武器有关。事实上,这个项目在1987年的联合国大会上被设立,并在1988年的第620号联合国大会决议中被重申。这项决议主要负责对可能违反1925年《日内瓦决议书》或国际法中其他相关规则的可能使用化学、细菌(生物)及毒素武器的指控展开迅速调查。如果任何联合国成员国向秘书长提交了关于这类指控的报告,联合国秘书长有权展开调查,以客观和科学的方式查明事件的事实,并向所有成员国报告调查结果。在这个调查过程中联合国成员国会提名专家顾问及其分析实验室,根据联合国大会的第A/45/57C决议许可的准则和程序支持联合国的特别工作组展开调查。在2007年联合国裁军事务厅特别考虑到了全球生物技术领域的发展,由新生物技术产生的生物武器必将会提高调查难度,于是他们更新了UNSGM调查机制中对参与调查的联合国成员国的生物实验室的相关生物技术方面的要求。

        2018年联合国秘书长发布了题为《确保我们共同未来的》议程,根据《确保遵守禁止化学和生物武器准则的指导声明》,联合国特别工作组将采取一些议程行动评估、考察并训练联合国成员国调查生物武器情况的能力。伴随这些议程的发布,联合国特别工作组决定自2018年起,每年对联合国成员国的指定生物安全实验室进行调查能力考核测试,这种测试主要是通过在符合相关联合国决议准则的情况下,人为构建模拟的疑似生物化学武器袭击的样本,让成员国的指定生物安全实验室对这些模拟的样本在规定时间内完成相关分析,鉴定样本中的病原(病毒或细菌),并识别这些病原的基因组特征,判断是否可能来源于人为改造。每个指定实验室将分析结果报告给联合国,最终联合国相关机构对每个实验室提交的答案进行评判打分,最终以分数的方式量化这些实验室的相关能力。同时,联合国也会在分数公布时公开全部答案,以帮助这些实验室通过答案反思可能存在的问题。简而言之,在2018年联合国特别工作组设置了一个长期对成员国指定生物安全实验室能力检测考核的项目。这个项目主要面向成员国的高水平生物安全实验室。也是在同一年,我本科毕业,推免至中国科学院武汉病毒研究所开始我的硕博连读生活。由于那时病毒所拥有我国唯一一所生物安全四级实验室(P4实验室),我的导师危宏平研究员当时任病毒所郑店园区的生物安全三级实验室(P3实验室)副主任。病毒所也早在2018年前开始筹备建设生物安全大科学中心,因此病毒所参与了UNSGM项目,我的导师危宏平研究员成为了参与UNSGM项目的主要负责人之一。由于我在本科期间自学了一些生物信息技术,而并且我当时是危老师课题组唯一的纯生物信息学背景学生,其他师兄师姐均是做实验的。加上UNSGM项目涉及到对病原的宏基因组测序分析,因此我在入学时被安排参与了UNSGM项目。此外,由于我的导师危宏平研究员是UNSGM项目的主要负责人,UNSGM项目的主要工作由我们课题组承担,课题组的余军平副研究员主要是负责前期实验(提核酸、建库、PCR),我主要负责生物信息分析(NGS和TGS)。我和余老师成为了课题组唯二的UNSGM常备核心人员。当然,实际情况也没有那么惨,病毒所当时在建设生物安全大科学中心,所里还有其他部分课题组偶尔会共同参与一些UNSGM的验证工作。因此,自2018年起UNSGM项目与我结下了不解之缘,直到我博士毕业。

UNSGM项目点点滴滴

        从我读研到博士毕业,前前后后一共参与了12次UNSGM项目。我在我的博士毕业论文中记录了从2018年到2022年的11次UNSGM项目。由于我在2023年8月博士毕业,2023年4月时我还参加了一次关于痘病毒(Pox virus)溯源的UNSGM项目,那一次的项目在我毕业时还没有公布成绩,所以我的毕业论文中没有提到那次项目。在我记录的11次项目中,我印象最深的三次项目是2019年的炭疽杆菌分析项目、2021年的痘病毒遗传改造分析项目和2022年的十种脑炎病毒检测项目。

        2019年的炭疽杆菌分析项目中模拟了恐怖份子炸毁了一家炭疽疫苗生产厂使得疫苗厂中的炭疽疫苗株泄露至周围环境中,恐怖份子在环境中释放了少量高毒力的炭疽毒株。在这种情景模拟下,由于炭疽杆菌不同毒株之间基因组高度相似(全基因组的平均核苷酸一致性超过98%),并且环境样本中大量的炭疽都是疫苗株,而联合国工作组给我们寄送的模拟样本又恰好是环境样本。如果采用普通的宏基因组物种分析+毒力基因分析策略,是无法分析到那株故意释放的炭疽毒株的。在那一次项目中我开发了宏基因集合映射法,将从头组装的全部炭疽杆菌相关的contigs序列中的全部基因预测出,并计算这些基因和数据库中已知炭疽毒株基因组的相似性网络,通过对网络的搜索,我们找到了大量的疫苗株(Pasteur株)之外的少量的Sterne毒株的基因(这些基因不是已知的毒力基因)。那一次项目,我们是少有的准确鉴定出Sterne株的实验室。那一年,我研二,也是因为那一次项目,我得到了所里很多老师的认可。
        2020年的痘病毒遗传改造分析项目模拟了恐怖份子利用反向遗传学技术将牛痘病毒和天花病毒整合为嵌合病毒的情景。在那次情景演习中,天花病毒的中央区(center region)基因组被嵌入牛痘病毒的基因组首尾大片段之间。我利用自己改良的基因组组装算法成功从NGS数据中恢复拼接了嵌合病毒的基因组序列。并且找到了连接两个基因组之间的反向遗传linker序列。并准确推算出演习中的恐怖分子利用牛痘病毒的JagKre08/2毒株的基因组首尾端和天花病毒的Somalia 1977毒株的中央区构建了这个嵌合物种。
        2022年的十种脑炎病毒检测项目中模拟了对高变异性病毒的低核酸载量样本的PCR检测能力。与DNA病毒和RNA病毒中的冠状病毒不同,一些小RNA病毒的变异性非常高,因为这些小RNA病毒的RdRp(RNA依赖的RNA聚合酶)合成核酸的保真度低且没有核酸外切酶进行错误校对。使用PCR手段检测这些小RNA病毒具有较大难度。我开发了一种同时基于基因组序列和高通量测序数据的极端保守区鉴定算法,我通过对公共数据库中的可以导致脑炎的病毒的高通量测序数据和基因组数据进行了分析,找到了高度保守的区域,并对这些区域进行引物探针设计,最终在测试联合国工作组寄送的样本时,我们得到了更灵敏的检测结果。

        除了这些记忆深刻项目,UNSGM项目还有一个特点就是持续时间久。一个项目2要进行两个月,我一共参加了12次,相当于我有2年时间在做UNSGM项目。我5年硕博连读的时间扣掉UNSGM项目还剩3年有效科研时间,这些时间再扣掉一半帮课题组做其他横向和帮其他人分析他们的课题数据,真正留给自己科研的时间很少。因此我在硕博连读5年的时间中有4年的春节都是在研究所做自己的课题,没有回家。当然为什么UNSGM项目要花2个月时间才能完成一个,主要原因是课题组没有足够好的服务器。课题组一共只有两个工作站,一个64G内存,32线程。一个32G内存16线程。这些内存都是后来单独加了内存条才这么大的。所以在以前的课题组,我能用的计算资源就这些。除此以外课题组只有我一个人做生信,其他人包括老师也不懂,无法指导我。每次联合国项目遇到新问题我都要现想办法现写程序去做。因此这种情况下联合国项目花的时间就非常久了。

PHDtools病原高维数据分析平台

        PHDtools是我开发的Pathogen High-dimensional Data tools的缩写。开发PHDtools的想法诞生于2020年10月6号,我刚刚从硕士转成博士1个月。当时也处于新冠疫情很严重的时期,由于当年的11月份还有关于冠状病毒基因组分析的UNSGM项目,除了联合国项目之外,我还有很多新冠的基因组数据需要处理分析。由于我是我们课题组唯一一个做生物信息学的,周围的学生和老师都不懂这个方向,有很多数据需要我一个人处理。为了减少自己处理数据的复杂度,开发一个软件的想法在我脑海中诞生。但是开发一个什么样的软件?有哪些功能?怎么样开发软件?这些问题我都不知道,幸好截止到2020年10月,我已经有5次参加UNSGM项目的经历了,我整理总结了每次UNSGM项目中哪些问题是高频问题,那些数据分析类型是经常用到的,并将要用到的数据分析类型和我自己其他研究中会用到的数据分析类型取了一个交集。我将交集中的分析功能列为首要的分析功能,并开展了对这些分析功能的开发。不过,当时的目标只是开发一个基于Linux版本的软件。使用简单的命令行能操作即可。
        真正让我考虑把PHDtools从软件变成网站动机是2021年我博士开题答辩那段时间。可以从我前面发的我在博士毕业论文中记录的UNSGM参与记录表格中,我从2021年9月到2021年12月之间,一直在马不停蹄地参加UNSGM项目:痘病毒遗传改造分析、布鲁氏菌检测分析和出血热病毒检测分析。由于一个UNSGM项目要花费大约2个月时间,那段时间我同时还要准备博士开题答辩、撰写1.5万字左右的开题报告、还有我的一篇新冠的论文要修改,以及我还要参加中国病毒学协会和病毒所联合举办的病毒学论坛学术报告和武汉大学牵头举办的华中高校跨学科学术论坛报告。各种事情让我忙得不可开交。由于我之前是将PHDtools定位成Linux版本的命令行软件,但是我发现我实在教不会我的老师操作Linux系统,不是说我老师学习能力差,而是他们除了UNSGM项目还有很多实验性质的横向需要做,特别是余军平副研究员,她那段时间几乎天天进P3实验室给课题组做横向挣经费。完全没有时间复习回顾Linux命令。因此如果我能把命令行版本的软件开发成网页版,那么她就可以不学习直接使用。这样UNSGM项目数据可以不经过我的手她直接就能分析,这样可以大大提高效率。因此让不懂生物信息的人可以分析生物信息原始数据,成了驱动PHDtools转变的原因。但是网站开发说着容易做着难。因为平时开发生物信息程序都是基于Linux命令行,那些已经开发的程序都是需要命令行操作运行,这些操作都属于后端操作。网站开发是能让用户根据图形化的网站点击,系统根据用户点击的行为做出相应的反馈进而调动后台程序将用户上传的数据进行分析处理,并在最后将处理好的结果反馈至网页让用户看见,这里涉及到前段和前后端连接的问题。这些技术对于当时的我而言完全没有。考虑到我那时身处的环境,自学成了我当时唯一的出路。
        经过几个月的自学,我终于在2022年4月写出了网站的雏形。伴随着将软件变成网站,我又将后台程序进行了进一步的升级革新,使得之前用于软件目的的后台程序可以被前端程序调用。同时我也在进行前端的设计,这个过程持续了到2022年6月。当我把雏形给导师看时,他非常高兴,因为我完成了网站的初步搭建,使得他们也可以使用。但是唯一不足的是美学问题,当时导师说如果页面可以做好看一点,等做好了找一个公司外包,租个服务器然后搭建成公共的网站,大家都可以访问使用,增加知名度。最后网站可以投稿至NAR期刊。我还挺高兴的,觉得这些工作还是很有意义。不过网站的美学设计实属难倒我了。我确实没有相关设计背景,我曾尝试在淘宝上买设计模版,但是这些模版要么风格不符合科研,要么不符合生物信息、要么就是模板的架构是基于nodejs或Django,和我的前端架构不搭。加上我在的课题组无法给我提供任何帮助,自学又成了唯一解法,因此过了3个月,我终于在2022年9月将PHDtools外观自己设计好了。

PHDtools功能

        上面的图中展示了PHDtools核心功能主要分为 3 大板块。其中第一大板块为基本序列操作部分,该部分包含 4 个主要功能:1. 序列反向互补(Reverse and Complement),2. 序列翻译(Sequence Translation)和 3. 序列比对(Sequences Alignment)用于序列分析常规操作。4. 基于结构基序或位点提取目标序列(Extract Sequence),例如从多条序列中提取出含有特定片段的局部或完整序列,该部分主要用于辅助序列数据的个性化分析和操作。第二大板块为组学数据分析部分,该部分包含 7 个主要功能:1. 完成用户指定的病原基因组组装用于精细化研究病原基因组特征(Target Pathogen Assembly)。2. 分析微生物组原始测序数据(Pathogen X Identification),研究样本中的全部微生物,通过微生物的丰度和覆盖度信息报道样本中潜在病原微生物。3. 分析微生物在宿主内的遗传多样性(Intra-host Diversity),了解微生物的宿主内适应性进化。4. 微生物比较基因组学分析(Comparative Genomes),用于探索微生物基因组变异信息。5. 病原基因组功能基因预测(Genome Annotation)。6. 分析评估高通量测序数据质量(Genome Sequencing Quality)。7.微生物基因组高分辨率分型(Strain Typing),用于解析或溯源病原。该部分主要用于高通量原始数据处理,发现潜在病原,完成病原基因组组装并多维度表征其基因组信息。第三部分为分子诊断部分,该部分包含 4 个主要功能:1. 病原保守序列挖掘(Conserved Sequence Determine),用户可以上传多条病原的基因组序列用于分析保守区域,指导病原核酸检测试剂盒开发或筛选保守抗原表位。2. 引物设计(PCR Primer Design),用于设计病原核酸检测的 PCR 引物。3. 毒株水平引物探针匹配分析(Strain-level Primers Mapping),用于评估引物是否在某些毒株基因组上会因错配而脱靶。4. 特征突变挖掘(Unique Mutation Identification),解析同一病原不同谱系间的常见和特征突变,用于指导突变株检测试剂盒开发或谱系间功能基因组学研究。该部分立足于利用大数据分析指导病原分子诊断靶标设计。整个网站包括 15 种原始数据处理功能,不同功能输出的结果又可以作为其他功能的输入数据。例如,图中 Target pathogen Assembly 功能或 Pathogen X Identification 功能可以和 Intra-host Diversity 功能联立,使得完成基因组或宏基因组分析后可以解析微生物内部的遗传多态性。Conserved Sequence Determine 功能可以直接联立 PCR Primer Design 功能和 Strain-level Primers Mapping 功能,使得挖掘病原保守序列,设计保守引物,评估引物保守性能便捷连贯地完成。总而言之,自由组合 PHDtools 的不同功能可以实现更加多样化的病原基因组信息挖掘。

        如果要选择一个功能分析,只需要点击功能的名字进入相应页面根据要提交的数据表单的提示完成数据提交。后台可以自动完成分析,并返回分析结果。

PHDtools的高起低落

        说实话,刚完成PHDtools在线平台开发时我和余军平副研究员还是非常激动的,她从2022年9月开始一直作为我的唯一内测人员帮我测试PHDtools特性。由于PHDtools有15个功能,每个功能她都用以前的UNSGM项目数据和课题组测序的新冠病毒的数据进行上传分析。为了测试功能和功能的衔接性,她又花了很多时间将许多功能输出的结果作为输入数据输入到另外的功能中。一旦发现问题,她反馈给我,我又回到代码里面找bug然后debug,然后再更新。她再测试,就这样前前后后折腾了几个月,最终我们在2022年年底将PHDtools第一次应用到了脑炎病毒的检测分析中,还获得了满分的成绩。当时她和我都觉PHDtools值得发表到一个不错的期刊上,毕竟那么多次联合国项目排名证明了我们的代码分析出的数据非常准确。
        然而,现实打脸来的太快,当我们准备租服务器找公司外包公开PHDtools时,博导带来了很伤心的消息,因为新冠疫情的缘故,加上美国政府无端泼脏水给病毒所,谣言新冠病毒是从病毒所泄露的,病毒所处于国际舆论的漩涡中。美国的黑客一直在攻击病毒所官网,试图找到可以陷害所里的证据。因此我的网站不会被允许公开。我问导师为什么,导师解释,首先PHDtools这个网站是我个人开发的,我没有任何网络安全背景,我如何确保我开发的网站不会被专业的黑客攻击呢,加上病毒所处于国际舆论漩涡,我不能为了个人利益而置国家利益不顾。这一点,我确实要为了国家利益让步。其次,找公司外包把网站搭建到其他服务器上,需要花钱。而且服务器有租金,以后一直会有相关支出。加上我现在开发的生物信息功能已经可以满足课题组的大部分需求,课题组做生物信息的只有我一个人,大方向主要偏向实验方面。因此,PHDtools能被课题组使用就可以了。这突如其来的情况远远低于了我的期待。网站无法公开,就意味着很多期刊已经不能投稿了。连论文都还没有开始写,就知道这条路几乎很难走了。因为这两个原因PHDtools至今只能存在于课题组的工作站中,仅仅只能被研究所的内部网络访问。
        原本以为无法公开网站导致论文这条路不太可能的打击足够大了,谁知道接下来又一个打击直接把我拉下低谷。我又找导师商量要不搞一个软件著作权,以后开公司赚钱。我导师觉得这条路也很不错,但是当我导师联系研究所科技处后,又带来一个沉痛的消息,导师说科技处说申请软件著作权可以,但是著作权人只能是病毒所,学生和导师名字均不能出现。我和我导师都觉得这个规定很不合理,因为所里申请专利的发明人都是导师+学生名字,怎么到了著作权人时只能是研究所了呢?为了这个事情,我导师还搬出了其他高校计算机学院学生和学校作为共同著作权人申请软件著作权的例子。科技处的人也解释说他也无法决定这个,规则是这样定的。最终,在我、我导师的商讨下,科技处最后出具了一个我只能勉强接受的方案,以病毒所为唯一著作权人申请软件著作权,拿到著作权后我导师以他的名义为我写一封证明信,证明PHDtools是我主要开发的,PHDtools的代码和分析程序由我一人独立完成,科技处再盖章。
        由于著作权申请和我的期望不一致,于是发一篇论文再次成为了最后的选择。但是因为前面申请了著作权,无形之中又为自己埋了一个深坑。著作权申请后,论文发表时不能公开软件的核心代码,因为软件已经具有了版权。PHDtools是一个网站,网站无法公开访问,源代码因为版权问题不能全部公开,除此以外,和当前流行的网站不同,PHDtools主要针对的是上游原始数据处理,而非下游数据的可视化,这使得PHDtools并没有其他画图类网站酷炫,同时由于网站的前端后端都是我一个人做的,我没有足够的精力和审美去做网页美化。这导致我投稿时屡屡被编辑拒稿,拒稿的理由是既无法访问网站,又看不到完整源代码,而且论文图片中网站的外观也不高级,期刊没有理由相信我这个PHDtools是真的。在那段时间,我的小老师余军平副研究员还试图帮我联系联合国项目特别工作组企图通过联系他们取得联合国官方工作小组认证许可,证明我的PHDtools是真的。但是这个认证的取得非常麻烦,可能要好几年时间。毕竟UNSGM项目并非学术性质的科研项目,在一定程度上具有政治意义。流程不好走。因此,很长一段时间,我陷入了论文发不出去,著作权也没有自己名字的低谷中,总是经常自我怀疑,我明明做了那么多有用的东西,为什么就没有人认可我呢?好在,我最后自己救了自己。由于我在发表PHDtools论文前,已经发表了6篇和病原生物信息有关的论文,也作为审稿人给许多期刊完成过9篇manuscript的同行评议。我收到了来自爱思唯尔出版社下Gene期刊做客主编的约稿,这个期刊的编辑在了解了我的情况后允许我以视频的方式给他看PHDtools操作方法和对数据分析的准确性。因此PHDtools的论文最终落到了这个期刊发表。

从病毒学到肿瘤早筛领域

        事实上,PHDtools论文发表的时候我已经赴境外工作2个月了。虽然从2018年到2023年这5年时光,我付出了巨大的经历在UNSGM和PHDtools的开发上。当我的付出没有和我的收获成正比时,我是失落难过的。但是真正驱动我选择离开研究所、离开武汉、离开病毒学领域还是经历新冠疫情后,自己的对生命对疾病理解的变化。首先新冠疫情中美国政府无端给中国、给病毒所抹黑,恶意制造谣言。除了美国政府以外,三年疫情期间,一些乱象让我觉得以后新发突发大流行传染病容易被政治化、污名化。其次,从2003年的SARS到2019年的新冠,这种新发传染病的出现存在时间尺度的间隔。从概率的角度讲,人类群体持续面对大规模传染病的疫情的概率并不是特别大。但是肿瘤和衰老确实所有人类都要面对的一大问题。在新冠时期,特别是在武汉封城时期我看到了太多生离死别,我开始思考生命的含义,实际上我在我自己的博士毕业论文中的致谢部分的开篇写下了这样一段话,这段话是我的独白,既是自己敬畏生命、也是对科学巨人的致敬,也是自己对生命、对科学、对文明的肤浅理解。

我常陷入沉思:什么是生命?什么是智慧?什么是科学?什么是文明?伴随自己的科学研究和对交叉学科的涉猎,我开始逐步对第一个问题有了浅层的认识与理解,生命或许是一种具有负熵性质的时空模式,这种模式同时具备动量、能量和信息三种基本物理量。在空间概念下,或许生命才是智慧的基础,智慧是科学的根基,科学是文明的必要条件。而我整个博士阶段的课题也是在研究如何观测生命,更确切地说是如何观测微生物生命。利用高通量测序技术和生物信息学算法,我的研究本质上是建立了一种信息转码的范式基础,将生化物质形式的核酸信息转化为文本形式的信息,并通过一系列算法剖析出文本信息背后蕴藏的微生物生命奥义。或许在自然尺度而言,我在学期间做的全部研究只是观测搜集与剖析微生物生命的信息,记录它们的时空动态过程。但是放在更小的人类社会尺度下,传染病为人类带来了不可忽视的灾难,如何检测传染病病原,如何抵抗并治疗它们所带来的疾病是人类与它们之间的生存斗争。生存是文明的必要需求,只有人类战胜病原,才能获得持续探索科学、发展文明的资格。对于整个人类而言,我显得是如此微不足道,我所做的研究仅仅只是在构筑人类生命健康防御高墙的巨大工程中添加了一粒细沙。正因为有了博士阶段的研究与历练,才让我意识到与人类历史长河中出现的那些引领人类科学发展的巨人相比,自己是多么的平庸与渺小。得益于经济学家帕累托提出的二八定律,让我意识到科学界中 80%的科学研究成果是由这个世界上 20%的科学精英所推动的,而剩余 80%的科研工作者凭借一生的勤恳与信仰,填补了那剩余 20%的漏洞,也正因为这 80%的科研工作者,才保证了人类的科学发展是站立在牢固坚实的基础上。庆幸于我在求学期间的这些认知,才让我对自己的平庸有了一份和解与淡然,也让我坚定了自己未来定会在漫长的科研工作中踏实勤恳地输出自己的科学工作。此刻,我怀揣最崇高的尊敬与感激致谢四位人类科学发展中的重量级人物:计算机科学家约翰·冯·诺依曼(John Von Neumann),Linux 系统发明人林纳斯·本纳第克特·托瓦兹(Linus Benedict Torvalds)和测序仪发明人威尔特·吉尔伯特(Walter Gilbert)和弗雷德里克·桑格(Frederick Sanger)。正因为他们发明了计算机、Linux 系统和测序技术,才使得我能站在巨人的肩膀上开展一系列病原微生物生物信息学研究。

在我的致谢部分我提到如下几个关键点:
1.我曾经的研究主要是从一个狭隘的角度建立了一种观测微生物生命的方法;
2.生存是文明的必要需求;
3.科学界的二八定律;
4.我自己是平庸的;

        我之前的研究主要是围绕微生物领域中病毒的检测,主要依赖生物信息学。本质上就是生物信息和检测。我已经意识到人类一直在持续面对的还是衰老和肿瘤。如何用生物信息的方法检测肿瘤,本质上和我以前的研究有理念上的相通之处。我自己是平庸的,但是我自己有一定的能力,我想去科学界那前20%的地方看看。于是,带着这些想法,我选择了跳出病毒学领域,来到一个在肿瘤早筛领域是世界顶尖的课题组。

PHDtools和UNSGM项目后传——Hannah的传承

        虽然我离开了病毒学领域,离开了武汉,离开了病毒所,离开了自己开发的PHDtools,但是PHDtools在以前的课题组被两台工作站保留了下来。余军平副研究员和徐博涵师妹(Hannah)成为了唯二的两个继承者。徐博涵师妹是2022年考入病毒所的硕士,于2024年通过研究所硕博连读考核,今年9月继续成为博士生。遗憾的一点是师妹从国科大上完课回武汉后,PHDtools已经完全开发完毕。我也要毕业离开了。我一直遗憾没有教会师妹使用命令行操作生物信息分析命令。以至于我交接PHDtools给余军平副研究员和徐博涵师妹时,她们一直担心,没有了我,以后UNSGM项目的生物信息分析部分怎么做?事实上,只要有PHDtools,她们就一定能出色的完成UNSGM项目。但是有PHDtools她们也不能很轻松地完成UNSGM项目。因为以前的课题组没有高性能计算机,只有两台配置比普通台式机好的工作站。与我现在的课题组所用的服务器相比,以前课题组的两台工作站就好比青铜时代的两个小兵遇到了现代化科技武装到牙齿的海陆空三军联合集团军。因此,在最近的一次UNSGM项目中徐博涵师妹和余军平副研究员从3月到5月一直在忙,据师妹说,这次UNSGM项目是中华人民共和国作为联合国项目成员国安排中国农业科学院哈尔滨兽医研究所作为特别工作组安排了UNSGM项目测试,这次测试需要分析的样本数量远远比以前的测试多。她们要分析30个样本,每个样本要完成mNGS分析、变异分析、遗传溯源、疫情爆发风险评估。除了分析数据、检验数据,还要阅读大量文献检索突变和功能基因组学的关系,从而评估爆发风险。可以说这三个月她俩基本没有休息。PHDtools真正帮助到他们的只是拿到分析结果,但是如何解读数据是她俩需要花费大量时间和精力的,如何检验数据也是要花费大量时间和精力的,除了生物信息分析和数据解读,拿到模拟样本后的核酸提取、建库送研究所的测试中心测序也需要花费时间。下面的图是她们参加UNSGM项目时收到的模拟测试背景和题目,以及她们拿到成绩后与全球参与了此次项目的高等级生物安全实验室的分数排名。在下面的图片中我师妹所在实验室的标号是7号,得到了150分的满分成绩,在全球参与此测试的实验室排名中是唯二获得第一名的。

        2021年联合国工作组在Nature Communication期刊发文宣传UNSGM项目,2024年4月,瑞士的日内瓦、德国的科赫研究所分别召开了线下和线上会议研讨过去5年的UNSGM项目。各个成员国均派出代表发表了对过去几年UNSGM项目的总结性分享,这个过程中余军平副研究员还在我下班后问我过去12轮以我为主完成UNSGM项目的总结。未来的UNSGM项目一直会持续,她俩未来还有很多场战役要打。 除了余军徐博涵,还有一个师妹史孟娟值得记住。在2021年到2022年的UNSGM项目对样本的核酸提取PCR检测出了很多力除了我以前课题组的这些成员,还有其他课题组,例如陈士云研究员课题组的张勇副研究员和周卫师兄刘翟研究员课题组的刘海舟高级工程师、闫艺师姐和徐孟师弟邓菲研究员课题组的正元副研究员和王君高级工程师石正丽研究员课题组的司昊睿他们其中部分UNSGM中的背靠背验证性工作。以及中国科学院武汉病毒研究所分析测试中心的张磊高级工程师、中国科学院水生生物研究所分析测试中心的乔治仙高级工程师和柴小翠工程师对模拟样本的测序服务。

        除了纪念所内曾共同参与UNSGM项目的成员。在我记忆中还有几家国内的其他单位也是UNSGM项目的重要参赛者。它们分别是中国人民解放军军事科学院军事医学研究院的团队、中国科学院微生物研究所、中国农业科学院哈尔滨兽医研究所、中国疾病预防控制中心传染病预防控制所传染病预防控制国家重点实验室。在我记忆中这些中国的单位和中国科学院武汉病毒所一样都是UNSGM项目的重量级参与者。我们在这个项目上既是同伴一起为国争光,同时也是竞争对手想做出更好的成绩一争高下。

写在后面的
这是一篇关于我对我自己开发的网站PHDtools的回忆录,也是自己和自己和解的一篇推文。更是自己在PHDtools开发历程画上的句号。事实上,在我毕业后,办理签证期间,我还对PHDtools部分功能进行了程序的更新升级,增加了更多的功能提高了分析准确性和速度。不过伴随自己的出境,PHDtools对我已经是过去式了。那些升级的代码就让它们安详地尘封于以前的笔记本电脑中吧。此刻,只希望自己可以在新的领域努力前行!另外再对病毒所其他课题组的师弟师妹说一句题外话,由于我之前的课题组老师也感觉到PHDtools的工作站配置太低,尽管PHDtools可以被所内网访问使用,但是课题组担心所里不同的学生不互相告知的情况下使用PHDtools分析数据造成死机,已经拔掉了其中一个工作站的网线,并修改了另外一个工作站的ip地址。因此PHDtools目前在病毒所只有我以前课题组部分获得使用权限的人员可以访问。

参考

  1. https://disarmament.unoda.org/wmd/secretary-general-mechanism/

  2. Appelt S, Rohleder AM, Invernizzi C, Mikulak R, Brinkmann A, Nitsche A, Krüger M, Dorner MB, Dorner BG, Scholz HC, Grunow R. Strengthening the United Nations Secretary-General's Mechanism to an alleged use of bioweapons through a quality-assured laboratory response. Nat Commun. 2021 May 25;12(1):3078. doi: 10.1038/s41467-021-23296-5. PMID: 34035242; PMCID: PMC8149868.

  3. Xiong D, Zhang X, Xu B, Shi M, Chen M, Dong Z, Zhong J, Gong R, Wu C, Li J, Wei H, Yu J. PHDtools: A platform for pathogen detection and multi-dimensional genetic signatures decoding to realize pathogen genomics data analyses online. Gene. 2024 May 30;909:148306. doi: 10.1016/j.gene.2024.148306. Epub 2024 Feb 24. PMID: 38408616.