Closed ixxmu closed 5 months ago
大清早的(2024-02-15 07:20)看到了《北京未来基因诊断高精尖创新中心》公众号宣传了他们单位的最新nature文章,详见:Nature | 白凡课题组与王红阳院士团队联合揭示中国人群肝癌全基因组变异及演化特征。本来呢,这样的资源型文章一般来说我们就看一下即可,因为人类遗传资源保护越来越严格了,基本上不可能看到病人的测序数据的公开,所以很难二次利用!
但是,朋友圈转发这个文章的越来越多,以至于我不得不还是在春节期间打开电脑瞟了一下这篇文献,文章标题短小精悍:《Deep whole-genome analysis of 494 hepatocellular carcinomas》,甚至于在标题里面并不需要突出中国人群这样的 关键词了,文章讲清楚了两件大事:
但是文章不仅仅是接近500个肝癌患者的全基因组,其实还有部分转录组测序:We also performed RNA sequencing (RNA-seq) analysis of 239 tumours from this cohort,同样的转录组也是很难拿到测序数据,但是作者给出来了 Supplementary Table 2,TPM matrix of RNA-seq cases.
既然说是资源型文章,所以文章的侧重点就是这些ngs组学数据分析啦,让我们肃然起敬的是其数据整理格式,以及文章配套网页工具和全部的代码。
虽然说, 因为人类遗传资源保护越来越严格了,我们无法获取测序数据,但是实际上,绝大部分人要来了这个测序数据也没什么意义,每个病人仅仅是肿瘤样品就200多个G的左右两个测序数据文件,如下所示:
也就是说这500多个病人就是100T的原始测序数据,每个病人还得要配对的正常组织的测序,因为肿瘤样品需要高深度测序,为了节省测序费用,配对的正常组织可以十分之一的测序量即可。总体上来说,110T的人类的WGS的原始测序数据,绝大部分课题组都可以放弃啦!哪怕是我们做肿瘤测序数据分析教学,通常也是《肿瘤外显子》这个技术,在《生信菜鸟团》有一个专栏,该专栏的目录(节选)如下:
如果大家啊确实是有这个数据量,我相信,绝大部分科研服务公司肯定是会“跪舔”大家的,所以这个时候讨论上游数据分析意义不大了!
虽然说,我们绝大部分人都可以直接放弃上面的测序原始数据,毕竟是110T的文件,但是,这个nature文章的优点就是超齐全的生物信息学配套材料,总体上来说是:
在GitHub (https://github.com/ChongJenniferZhang/CLCA_WGS). 可以看到
在Zenodo (https://doi.org/10.5281/zenodo.7260221). 可以看到全部的 Singularity containers
在网页工具 (http://lifeome.net/database/liver) 可以看到
其中github代码大家可以自行下载阅读,里面的代码我看了看,还不错,都是常规的shell脚本,所以很容易学习 :
但是Zenodo的Singularity容器技术也超出了普通入门级别生信工程师的能力,先略过。
我们直接看最精彩的网页工具,里面每个条目里面的都是一些成熟的资源:
我简单的下载看了看:
ls -lh |cut -d" " -f6-
29K 2 15 09:09 Cases_20240215.xlsx
13M 2 15 09:16 Copy_Number_Alteration_20240215.xlsx
36K 2 15 09:17 EcDNA_Detail_20240215.xlsx
27K 2 15 09:14 Kataegis_20240215.xlsx
6.5K 2 15 09:14 Mutational_Signatures_20240215.xlsx
20M 2 15 09:13 Mutations_20240215.xlsx
2.2M 2 15 09:16 Structure_Variation_20240215.xlsx
网页里面提供的文件,足够大家做各式各样的下游分析了,基本上就跟 tcga数据挖掘类似的,比如下面的需求:
来一个简单的学徒专业吧,读取那个Cases_20240215.xlsx文件,然后看看 Province ,Gender ,Age, Hepatitis Cirrhosis/Fibrosis BCLC ,Edmondson ,Smoking, Alcohol ,Multiple lesions ,这些临床性状是否有统计学显著的生存意义哦,绘制好生存分析曲线哈。
其实通读全文,这个nature文章在肿瘤全基因组数据分析层面已经是非常完善了,在附件都有详细的方法学描述:
比如基因组重排就涉及到:
每个分析点都是大量的 图表,而作为一个nature文章也不可能说什么都来一壶,其实可以衍生的分析还有很多很多,比如结合单细胞或者gwas,就有很多结果,留给大家发挥啦!
在咱们中国大陆,其实并不缺肝癌相关的病人和样品,所以早期已经是有了大量的其它组学队列研究,比如2019-CELL-复旦大学-多组学-蛋白质,文章是:《Integrated Proteogenomic Characterization of HBV- Related Hepatocellular Carcinoma》
如果大家有肝癌方面的疾病背景知识,其实可以系统性梳理一下相关的资源,做数据库网页工具合辑,做更高维度的挖掘。起码这个nature文章就很少涉及到他们的肿瘤基因组数据和转录组数据的联合分析。
如果能想清楚上面的nature文章的数据的挖掘思路,其实就可以很容易迁移到其它癌症啦,类似的公开的资源真的是数不胜数。而且很多队列研究是早期的,那个时候人类遗传资源保护并不是很严格,都是有测序原始数据公开的哦:
中国人群的三阴性乳腺癌多组学队列
中国人群的肾癌多组学队列
中国人群的肺癌队列:
当然了,也不一定要仅限于中国人群啦,也可以看其它国家地区, 比如德国 Prostate Cancer Systems Biology,2020年12月的文章,是:《Convergent network effects along the axis of gene expression during prostate cancer progression》,
我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com
如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:
We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.
十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。
这样的大队列根本不具有重复性,如果你是个大佬想重复这个,那换个肿瘤来一套吧 你可以还会发个nc
https://mp.weixin.qq.com/s/rIFzAyqgJP_6ZtMJ9cvJZQ