ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
106 stars 30 forks source link

不说大话!PlantTFDB没见有谁说得比我详细 #5389

Closed ixxmu closed 1 month ago

ixxmu commented 1 month ago

https://mp.weixin.qq.com/s/nNDL95uikH-8rEXAf6hphw

ixxmu commented 1 month ago

不说大话!PlantTFDB没见有谁说得比我详细 by 在生信的坑里挖呀挖呀挖

1

说在前头

转录因子(Transcription factor,TF)是能与基因5`端上游特定序列专一性结合,在转录水平上参与基因表达调控的蛋白质。注意噢,转录因子是蛋白!它们通过特异性的DNA结合结构域(DNA-binding domain,DBD)与DNA相互作用,与转录因子结合的DNA序列位点被称为转录因子结合位点(TFBS),TFBS的鉴定是理解转录调控的关键。

之前介绍了个动物经典的转录因子数据库AnimalTFDB,盘包浆的转录因子数据库,今天再来个植物的!对于植物来说,其生长发育过程都受到多种转录因子的调控作用,因此识别转录因子、对转录因子的结合位点进行预测、分析转录因子的调控网络等都有很重要的研究意义。

经典的植物转录因子数据库PlantTFDB(Plant Transcription Factor Database)最新版本5.0已经被整合进 PlantRegMap(地址如下) 中。PlantRegMap里东西太多,一时半会根本讲不完,今天就讲PlantTFDB。
https://plantregmap.gao-lab.org/index.php
PlantTFDB,经典植物转录因子数据库,当前是PlantTFDB 5.0,Last Modified: 2022-12-08 可见数据库还算是比较新的,用起来!进入首页后,可以通过两种方式查询。PlantTFDB地址如下、
https://planttfdb.gao-lab.org/index.php


2

一、按物种查询

PlantTFDB收录了165个物种,按照植物分类中的不同类群来分如下所示,可以看到该数据库覆盖了从原始的藻类到、维管植物、裸子植物以及多样化的被子植物类群。尤其是拟南芥、玉米、水稻、大豆等的转录因子家族成员,可以直接作为已知的,用于未知物种的该家族成员的鉴定。

  • Chlorophytae:绿藻门(16种)
  • Charophyta:轮藻门(1种)
  • Marchantiophyta:地钱门(1种)
  • Bryophyta:苔藓植物门(2种)
  • Lycopodiophyta:石松植物门(1种)
  • Coniferophyta:裸子植物门(5种)
  • Basal Magnoliophyta:基部被子植物门(1种)
  • Monocots:单子叶植物纲(38种)
  • Eudicots:双子叶植物纲(100种)

3

二、按照基因家族查询

该数据库整理了如此之多的转录因子,并将其分为58个家族,如下所示。

4

重点来了

我们先按照物种来看吧,举一反三,以拟南芥为例,进去看下。展示了本物种所有转录因子家族情况。


点击BES1 这个基因家族进去看下,有该基因家族的介绍、列出了其家族成员14个转录因子,也是可以下载这14个转录因子的蛋白序列,等等。



Download Sequences展示

点击其中1个转录因子AT1G19350.3进去看下,页面要往下划拉半天,可以看到非常非常非常之多的信息了。这里我们大概讲下,基本的一些信息就略过。详细的解释可以查看如下页面。

https://planttfdb.gao-lab.org/help_info.php

Basic Information

该转录因子及其对应基因的详细信息。这儿有个Gene Model说下。

Gene Model ID:从基因组或者数据库里获取的基因id。

Gene Model Type,有3种。

  • 1.genome:注释好的基因组。

  • 2.PU_ref:来自PlantGDB数据库和UniGene数据库的,从一组PUTs和Unigene被挑选出来具代表性的转录本/基因。

  • 3.PU_unref:来自PlantGDB数据库和UniGene数据库的,但并不是一组PUTs和Unigene中选出的具代表性的转录本/基因。

补充

PUTs
PUTs指的是编码蛋白质的独特转录本。在基因表达研究中,转录本(transcripts)是基因表达的直接产物,包括mRNA和非编码RNA。PUTs通常是指那些编码特定蛋白质的mRNA转录本,并且每个转录本是独一无二的,即对应于基因组中的一个特定位置。
在一些数据库中,PUTs用于表示那些已经通过实验验证或预测为编码蛋白质的转录本序列。
UniGene
UniGene集是根据序列相似性将来自同一基因的ESTs(Expressed Sequence Tags)分组,形成一个代表该基因的非冗余的转录本集合。每个UniGene集代表一个基因或基因家族,UniGene集中的转录本序列可以包括来自不同转录起始位点或剪接形式的变体,而PUTs通常是指那些已经确定为编码蛋白质的特定转录本。

Signature Domain

特征结构域,用于识别和分类转录因子的特定蛋白质区域。含有特定的氨基酸序列和/或结构模式,它们负责转录因子的DNA结合能力、转录激活或其他功能。通常是转录因子家族成员的共有特征,有助于区分不同的转录因子家族。

Protein Features

该蛋白的注释信息,比如Pfam、InterPro数据库

  • Entry ID: 是数据库中特定蛋白质家族或域的条目标识符。这里的 "PF05687" 表示Pfam数据库中识别的特定域的ID。

  • InterPro ID: 是InterPro数据库中用于标识特定蛋白质域的ID。InterPro是一个集成数据库,收集了多个蛋白质域和家族数据库的信息。对于 IPR008540 这个特定的条目,它代表的是一个与 BES1/BZR1 植物转录因子相关的。BES1(BRI1-EMS-Suppressor 1)和 BZR1(BRASSINOSTEROID-RESISTANT 1)是植物中重要的转录因子,它们在植物生长发育和对环境信号的响应中起着关键作用。

Gene Ontology

基因功能注释,含GO条目,所属分类和通路描述。
Plant Ontology

植物本体论,各种本体论,比如上述的Gene Ontology,再比如之前在不讲寻常话,CellMarker2.0真干货!里就提到过2个UBER Anatomy Ontology和Cell Ontology。

都有哪些本体论?

在生物医学和生命科学领域,本体论(Ontologies)是用于标准化描述特定领域知识的正式词汇。以下是一些主要的本体论:
基因本体论(Gene Ontology, GO):
用于描述基因产品(如蛋白质)的功能、过程和细胞组分。
疾病本体论(Disease Ontology, DO):
用于描述人类疾病及其相关特征。
细胞本体论(Cell Ontology, CL):
用于描述细胞类型。
解剖学本体论(Anatomy Ontologies):
如Uberon(跨物种解剖学)、FMA(人体解剖学)、MA(小鼠解剖学)等。
表型本体论(Phenotype Ontologies):
如HPO(人类表型)、MPO(小鼠表型)、FBbt(果蝇解剖学和发育)等。
蛋白质家族本体论(Protein Family and Domain Ontologies):
如Pfam、InterPro等。
生化本体论(Biochemical Ontologies):
如ChEBI(化学实体)、KEGG(代谢途径)等。
生态学本体论(Ecological Ontologies):
如EnvO(环境本体论)等。
行为本体论(Behavioral Ontologies):
如NBO(动物行为)等。
临床本体论(Clinical Ontologies):
如SNOMED CT(临床术语)、LOINC(实验室检验代码)等。
植物本体论(Plant Ontologies):
如PO(植物发育和结构)等。
微生物本体论(Microbial Ontologies):
如MIGS(微生物基因组序列类型)等。
生物医学本体论(BioMedical Ontologies):
如NCIT(国家癌症研究所术语)、MeSH(医学主题词表)等。
生物材料本体论(BioMaterial Ontologies):
如BioMatOntology(生物材料)等。
生物多样性本体论(Biodiversity Ontologies):
如GBIF(全球生物多样性信息设施)等。

Sequence

该转录因子的序列信息。

还有以下内容呢,你看一个转录因子给你整出这么多注释!可以说是研究植物转录因子,你必须会使用这个数据库!这些没讲完的和PlantRegMap里的其他好东西,再抽时间叨叨吧。
3D Structure
Nucleic Localization Signal
Expression -- UniGene
Expression -- Microarray
Expression -- Description
Functional Description
Function -- GeneRIF
Binding Motif
Cis-element
Regulation -- PlantRegMap
Regulation -- ATRM (Manually Curated Target Genes)
Regulation -- Hormone
Interaction -- BIND
Interaction
Phenotype -- Mutation
Annotation -- Nucleotide
Annotation -- Protein
Orthologous Group
Link Out
Publications

参考文献
Tian F, Yang DC, Meng YQ, Jin J, Gao G. PlantRegMap: charting functional regulatory maps in plants. Nucleic Acids Res. 2020 Jan 8;48(D1):D1104-D1113. doi: 10.1093/nar/gkz1020. PMID: 31701126; PMCID: PMC7145545.

5

文献Figure,用R画

点击公众号进入,底部菜单栏【挖到干货】里的【期刊同款图】查看!持续更新,代码大放送!推文中脚本现成的,直接copy!

6

生信这些,得了解

数据库/软件细细写了攻略
1.影响因子100+的文章教你该研究
2.研究LncRNA,你得会用PLEK
3.基因组大小知多少
4.基因组下载知多少,植物篇
5.植物的单细胞研究,得知道这俩宝贝!
6.植物的单细胞研究,你看看这俩数据库!
7.踢开空转的门,玩转STOmicsDB
8.做免疫浸润,用MCP-counter!
9.做免疫浸润,用CIBERSORT!
10.打卡小众且靠谱的cell markers库
11.差异可变剪切首推rMATS  rMATS的续篇
12.SSR鉴定,一步到位
13.LncRNA良心数据库,我得广而告之!
14.不讲寻常话,CellMarker2.0真干货!
15.空间转录组,“卷”你出圈
16.除了看《歌手》,还得学可变剪切!
17.MSigDB,GSEA的不二搭档
18.当表达量数据和批次效应撞个满怀,咋办
19.不要以为MSigDB就是GSEA分析用的配套数据库,那你太小瞧它了!
20.AnimalTFDB,盘包浆的转录因子数据库
21.说说生信解压那件小事
22.使用Canu对三代测序数据进行基因组组装
科研小帮手或者小经验
1.顶刊文献千千万,Figure配色随便拾
2.影响因子不会还在问度娘吧
3.SeqKit!序列处理贼好用!
4.samtools的花式用法
5.VCFtools,用过的都说好!
6.转录组的差异基因太多或者太少,该咋办?
7.基因名都写错了,还发什么文章!
8.生信实用技能盘点 | awk
9.生信实用技能盘点 | sed
10.单细胞之最来啦!M20 Seq,最全面的单细胞测序技术
11.哪个小可爱还不会找参考基因组
12.为啥有参转录组用HTSeq定量,而无参用RSEM呢
13.Cancer Cell同款 | 配色
14.Cell同款 | 配色
15.Paper引用量,查起来真方便!
16.当你想用R分析或绘图,第1步是啥

今天是诗


七月坐凉宵,金波满丽谯