ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
110 stars 30 forks source link

肺部各种疾病相关基因是否有单细胞亚群特异性表达 #3484

Closed ixxmu closed 1 year ago

ixxmu commented 1 year ago

https://mp.weixin.qq.com/s/7YoxVLrKovmaBHvC7e74dw

ixxmu commented 1 year ago

肺部各种疾病相关基因是否有单细胞亚群特异性表达 by 生信技能树

2020的文章:《Cell-specific expression of lung disease risk-related genes in the human small airway epithelium》是一个比较好的单细胞数据挖掘思路,而且可以在各个疾病上面很容易推广开来。

首先基本上每个器官组织都有了各自的单细胞转录组数据,就可以降维聚类分群啦,然后每个器官组织的相关高发疾病都是有gwas结果列出来了其疾病相关基因,仅仅是需要看看疾病相关基因是否在单细胞亚群有特异性即可。

肺部各种疾病大家耳熟能详的就应该是肺癌了,其实肺癌也有很多细分,简单的来说就是小细胞肺癌和非小,绝大部分肺癌都是非小,里面可以继续细分为肺鳞癌和腺癌啦。之前看到过网页工具文章的figure2,列出来了2015 WHO classification 的肺癌分类,From: LCE: an open web portal to explore gene expression and clinical associations in lung cancer ,列出来的肺癌的细分类实在是太复杂了。

还有其它研究比较多的肺部各种疾病包括:

  • chronic obstructive pulmonary disease (COPD),
  • idiopathic pulmonary fibrosis (IPF)

肺泡腔的结构使气体交换的界面最大化。这种结构的破坏是慢性阻塞性肺病(COPD)和肺纤维化(IPF)的基本原因,前者以肺气肿的形式出现,后者以特发性肺纤维化纤维化(IPF)为最常见的形式出现。

这些疾病早在十几年前就通过大量的GWAS持之以恒的研究找到了多个疾病相关基因,很容易下载到。

让我诧异的是这个时候作者居然是自己做了一下单细胞转录组测序,数据集是:GSE123405,可以看到是如下所示是6个样品:

GSM3502715 DGM-13427_sm (DropSeq_SingleCell_demographics)
GSM3502716 DGM-13460_sm (DropSeq_SingleCell_demographics)
GSM3502717 DGM-13451_sm (DropSeq_SingleCell_demographics)
GSM3502718 DGM-00384_sm (DropSeq_SingleCell_demographics)
GSM3502719 DGM-13434_sm (DropSeq_SingleCell_demographics)
GSM3502720 DGM-13471_sm (DropSeq_SingleCell_demographics)

其实肺相关的单细胞数据集实在是太多了,完全是可以处理公共数据集的。可以看到作者挑选的 human small airway epithelium (SAE) 可以细分为:

  • 1 – BC, highly expressing KRT5, KRT15 and TP63
  • 2 – intermediate cells, highly expressing both BC (KRT5, KRT15, TP63), and club cell (SCGB1A1, CYP2F1) markers
  • 3 – club cells, highly expressing SCGB1A1 and CYP2F1
  • 4 – mucin-producing cells, highly expressing MUC5AC
  • 5 – ciliated cells, highly expressing FOXJ1
  • 6 – ionocytes, highly expressing FOXI1
  • 7 – neuroendocrine, highly expressing CHGA
  • 8 – T cells, highly expressing CD3D
  • 9 – antigen-presenting cells, highly expressing major histocompatibility complexes (MHCs), including HLA-DRA,
  • 10 – mast cells, highly expressing KIT
  • 11 –   NCL-high cells, highly expressing NCL, a gene encoding a nucleolar protein

前面我们系统性梳理了各种器官的上皮细胞的细分亚群,以及其对应的标记基因列表:

没有作者这个GSE123405数据集的降维聚类分群的详细:

GSE123405数据集的降维聚类分群

这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

有了这些单细胞亚群信息,然后各个疾病的基因查询好后,一个简单的气泡图就可以展现各个基因是否在各个单细胞亚群有高表达特异性啦:

高表达特异性

完全都不需要做任何单细胞高级分析,不过, 如果大家先模仿这个文章的思路,毕竟是三年过去了,加一点高级分析可能是有必要的。其它单细胞转录组高级分析,我们也多次分享过细节教程:

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。

ixxmu commented 1 year ago

肺部各种疾病相关基因是否有单细胞亚群特异性表达 by 生信技能树

2020的文章:《Cell-specific expression of lung disease risk-related genes in the human small airway epithelium》是一个比较好的单细胞数据挖掘思路,而且可以在各个疾病上面很容易推广开来。

首先基本上每个器官组织都有了各自的单细胞转录组数据,就可以降维聚类分群啦,然后每个器官组织的相关高发疾病都是有gwas结果列出来了其疾病相关基因,仅仅是需要看看疾病相关基因是否在单细胞亚群有特异性即可。

肺部各种疾病大家耳熟能详的就应该是肺癌了,其实肺癌也有很多细分,简单的来说就是小细胞肺癌和非小,绝大部分肺癌都是非小,里面可以继续细分为肺鳞癌和腺癌啦。之前看到过网页工具文章的figure2,列出来了2015 WHO classification 的肺癌分类,From: LCE: an open web portal to explore gene expression and clinical associations in lung cancer ,列出来的肺癌的细分类实在是太复杂了。

还有其它研究比较多的肺部各种疾病包括:

  • chronic obstructive pulmonary disease (COPD),
  • idiopathic pulmonary fibrosis (IPF)

肺泡腔的结构使气体交换的界面最大化。这种结构的破坏是慢性阻塞性肺病(COPD)和肺纤维化(IPF)的基本原因,前者以肺气肿的形式出现,后者以特发性肺纤维化纤维化(IPF)为最常见的形式出现。

这些疾病早在十几年前就通过大量的GWAS持之以恒的研究找到了多个疾病相关基因,很容易下载到。

让我诧异的是这个时候作者居然是自己做了一下单细胞转录组测序,数据集是:GSE123405,可以看到是如下所示是6个样品:

GSM3502715 DGM-13427_sm (DropSeq_SingleCell_demographics)
GSM3502716 DGM-13460_sm (DropSeq_SingleCell_demographics)
GSM3502717 DGM-13451_sm (DropSeq_SingleCell_demographics)
GSM3502718 DGM-00384_sm (DropSeq_SingleCell_demographics)
GSM3502719 DGM-13434_sm (DropSeq_SingleCell_demographics)
GSM3502720 DGM-13471_sm (DropSeq_SingleCell_demographics)

其实肺相关的单细胞数据集实在是太多了,完全是可以处理公共数据集的。可以看到作者挑选的 human small airway epithelium (SAE) 可以细分为:

  • 1 – BC, highly expressing KRT5, KRT15 and TP63
  • 2 – intermediate cells, highly expressing both BC (KRT5, KRT15, TP63), and club cell (SCGB1A1, CYP2F1) markers
  • 3 – club cells, highly expressing SCGB1A1 and CYP2F1
  • 4 – mucin-producing cells, highly expressing MUC5AC
  • 5 – ciliated cells, highly expressing FOXJ1
  • 6 – ionocytes, highly expressing FOXI1
  • 7 – neuroendocrine, highly expressing CHGA
  • 8 – T cells, highly expressing CD3D
  • 9 – antigen-presenting cells, highly expressing major histocompatibility complexes (MHCs), including HLA-DRA,
  • 10 – mast cells, highly expressing KIT
  • 11 –   NCL-high cells, highly expressing NCL, a gene encoding a nucleolar protein

前面我们系统性梳理了各种器官的上皮细胞的细分亚群,以及其对应的标记基因列表:

没有作者这个GSE123405数据集的降维聚类分群的详细:

GSE123405数据集的降维聚类分群

这样的单细胞转录组数据分析的标准降维聚类分群,并且进行生物学注释后的结果。可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。如果你对单细胞数据分析还没有基础认知,可以看基础10讲:

有了这些单细胞亚群信息,然后各个疾病的基因查询好后,一个简单的气泡图就可以展现各个基因是否在各个单细胞亚群有高表达特异性啦:

高表达特异性

完全都不需要做任何单细胞高级分析,不过, 如果大家先模仿这个文章的思路,毕竟是三年过去了,加一点高级分析可能是有必要的。其它单细胞转录组高级分析,我们也多次分享过细节教程:

写在文末

我在《生信技能树》,《生信菜鸟团》,《单细胞天地》的大量推文教程里面共享的代码都是复制粘贴即可使用的, 有任何疑问欢迎留言讨论,也可以发邮件给我,详细描述你遇到的困难的前因后果给我,我的邮箱地址是 jmzeng1314@163.com

如果你确实觉得我的教程对你的科研课题有帮助,让你茅塞顿开,或者说你的课题大量使用我的技能,烦请日后在发表自己的成果的时候,加上一个简短的致谢,如下所示:

We thank Dr.Jianming Zeng(University of Macau), and all the members of his bioinformatics team, biotrainee, for generously sharing their experience and codes.

十年后我环游世界各地的高校以及科研院所(当然包括中国大陆)的时候,如果有这样的情谊,我会优先见你。