ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
110 stars 30 forks source link

遗传突变 | 正常与突变蛋白三维结构模型的绘制与分析 #2067

Closed ixxmu closed 2 years ago

ixxmu commented 2 years ago

https://mp.weixin.qq.com/s/yqepdosnpYL45X2MFYWutA

github-actions[bot] commented 2 years ago

遗传突变 | 正常与突变蛋白三维结构模型的绘制与分析 by 生信宝典

利用全外显子或全基因组测序进行遗传变异分析时,可发现大量的突变位点。这些突变位点在使用SIFT、PolyPhen-2或CADD批量地预测对蛋白的有害性后,一般需要进行下游更高级的分析,例如突变蛋白的具体功能影响、结构的预测和比较。

变异的有害性、致病性和ACMG分类

有几点容易混淆的地方,在此明确一下:

(1)变异的有害性SIFT、PolyPhen-2和CADD等软件或算法属于生物信息学计算预测程序或硅基分析工具(Silico Tools)用于评估序列变异对蛋白质功能的影响(functional effect),返回的结果是定性的(虽然也有打分),类似于:无害(Tolerated/Benign)、有毒、可能有害或很可能有害(Deleterious、Possibly damaging、Possibly damaging)(具体见:外显子和基因组基本概念(二))。

(2)变异的致病性。上述软件的预测结果,与ACMG(美国医学遗传学与基因组学学会,American College of Medical Genetics and Genomics)给出的变异致病性指南中的分类术语(包括良性、可能良性、意义不明确、可能致病、致病:Benign、 Likely Benign、uncertain significance、Likely Pathogenic、Pathogenic),是两个完全不同的分类系统。ACMG是序列变异临床解读的标准和指南,涵盖除了生信程序预测外,更多其它因素与证据(如下图),包括:人群变异频率,Case-Control突变频率的差异、果蝇反向遗传筛选等基因功能研究(链接)、家系表型-基因型的共分离和新发变异等。

http://acmg.cbgc.org.cn/doku.php?id=start
SIFT、PolyPhen-2和CADD生物信息学计算预测程序极大地帮助了对潜在致病位点的筛选,利于获得候选基因。但上述软件(即使是多个)预测的结果被ACMG视为单一证据,需结合其它证据给出更具体的致病性分类,推进临床应用。
(3)ACMG分类 vs 致病机制并不是所有的研究或Paper都必须给出ACMG指导下的变异致病性分类。很多文章不涉及ACMG分类,例如下文截图的一篇文章,以及之前我们公众号推荐的一篇文章:基因突变与脑瘫发生风险(文献解读,Nature Genetic,2020),这些文章虽不涉及ACMG致病性分类,但会深入研究变异可能的致病机制,例如:预测和验证突变对蛋白磷酸化、亲水性、GTP结合位点、表面电荷和三维结构的具体影响,以发现和证明某些候选变异的致病原理。

文献中的相关方法与软件

1)关于SIFT、PolyPhen-2和CADD生物信息学计算预测的研究方法,可参考下面这篇文章的描述:

Possible functional effect of the rare variants using in silico prediction tools.

2)上述程序只预测了变异的有害性,是定性的“影响”(Tolerated/Benign、Deleterious、Possibly damaging、Possibly damaging),研究更具体的问题(例如蛋白磷酸化、亲水性、GTP结合位点、表面电荷和三维结构的改变)需要使用其它软件:

Potential effects of missense variations on protein sequence or structure.

PLOS Genetics | https://doi.org/10.1371/journal.pgen.1007394 July 12, 2018

上述常用软件汇总如下:

NetPhos:预测突变对蛋白磷酸化位点的影响;

DictyOGlyc:预测突变对蛋白糖基化位点的影响;

SMART:预测蛋白有哪些结构域;

PSIPRED(纽普生物有在线工具):预测蛋白二级机构,如α-螺旋、β折叠;

SWISS-MODEL/Phyre2/AlphaFold:从头预测野生及突变蛋白三维结构(模型);

PyMOL/Chimera/POLYVIEW-2D:蛋白模型的可视化、结构比较。

分析时输入野生与突变的氨基酸序列或PDB文件。

PDB文件:PDB即protein data bank,一般把蛋白质的三维结构信息用pdb文件保存(后缀为.pdb),信息包括:作者,参考文献,结构(二硫键、螺旋、片层、活性位点等)说明;每一行信息称为一个记录(record),类型包括:标题、一级结构、杂因子、二级结构、连接注释、晶胞特征及坐标变换、原子坐标、连接信息、簿记。

下图PDB文件中,Residue表示氨基酸残基;Chain的A表示α螺旋,三维坐标系用于呈现三维结构。

PDB File Format - E-Learning@VIB

PyMOL软件:py代表python,即主要由python编译的开源软件(可运行于Windows系统,可含命令行);mol代表molecule,主要用于(大)分子结构可视化软件,可展示发表级的静态或动态分子结构图,可自定义颜色、风格、突出显示、电子密度、表面静电、在原PDB文件上自定义突变、两个蛋白的结构对比。PyMOL官方资料:https://pymolwiki.org/index.php/。

更下游的高级工具,如分子对接:主要研究分子间相互作用,并预测其结合模式和亲合力的一种理论模拟方法。例如:突变对蛋白复合物结构的影响;通过受体的特征以及受体和药物分子之间的相互作用方式来进行药物设计,涉及分子之间的空间匹配和能量匹配。此后再谈,相关内容见:分子对接教程



蛋白质结构和功能的相关背景知识

依据功能的大致分类

Function

Example

Structure
Collagen in tendons and ligaments, Keratin in the nails and skin
Transport
Hemoglobin in the blood, Na+,K+-ATPase in cell membranes
Protection
Antibodies of the immune system
Movement
Actin and Myosin in muscles
Enzymes
Digestive enzymes in the small intestine (Lactase, Sucrase, Trypsin)
Receptors
Membrane proteins that respond to chemical messengers (insulin receptors)
Regulation
Chemical messengers: hormones, neurotransmitters, cytokines
https://content.byui.edu/file/a236934c-3c60-4fe9-90aa-d343b3e3a640/1/module3/readings/proteins.html
氨基酸残基的标准IUB/IUPAC缩写
单字母
三字母
中文

单字母
三字母
中文

单字母
三字母
中文
A
Ala
丙氨酸
I
Ile
异亮氨酸
R
Arg
精氨酸
C
Cys
半胱氨酸
K
Lys
赖氨酸
S
Ser
丝氨酸
D
Asp
天门冬氨酸
L
Leu
亮氨酸
T
Thr
苏氨酸
E
Glu
谷氨酸
M
Met
蛋氨酸
V
Val
缬氨酸
F
Phe
苯丙氨酸
N
Asn
天门冬酰胺
W
Trp
色氨酸
G
Gly
甘氨酸
P
Pro
脯氨酸
Y
Tyr
酪氨酸
H
His
组氨酸
Q
Gln
谷氨酰胺
X
Unk
未指定或未知氨基酸
注意:单字母不一定是三字母的首字母
蛋白质二级结构(secondary structure of protein)

多肽主链骨架原子沿一定的轴盘旋或折叠而形成的特定的构象,不涉及氨基酸残基侧链。主要形式包括α-螺旋、β-折叠、β-转角和无规卷曲,维持此些结构的主要作用力为氢键。

http://quizlet.com/13611888/ct-macromolecules-part-1-flash-cards

蛋白质三级结构(protein tertiary structure)
在二级结构的基础上进一步盘绕,折叠形成,主要是靠氨基酸侧链之间的疏水相互作用,氢键,范德华力和静电作用维持。

https://content.byui.edu/file/a236934c-3c60-4fe9-90aa-d343b3e3a640/1/module3/readings/proteins.html
蛋白结构性状的两大类:球性和纤维状

  

球状蛋白非常脆弱,可以通过加热、有机溶剂或强离子溶液等方式失活(变性);纤维蛋白帮助形成骨骼、软骨、肌腱(将肌肉固定在骨骼上)、韧带(将骨骼固定在其他骨骼上)和我们内脏器官周围的囊。

PyMOL的蛋白静电势图 vs 泊松-玻耳兹曼静电图

部分文献,例如基因突变与脑瘫发生风险(文献解读,Nature Genetic,2020),使用的是泊松-玻耳兹曼静电图:Poisson–Boltzmann electrostatic maps。但PyMOL默认使用的所谓蛋白接触电势图:(Vacuum Electrostatics)Protein contact potential (local)。二者有什么区别与联系?

以下内容来自PyMOL官方文档(https://pymolwiki.org/index.php/Protein_contact_potential)的解释:

蛋白质接触电位(Protein contact potential)可在PyMOL中自动表示,即在蛋白质上显示虚拟的(false)红/蓝电荷光滑表面。如下图(上):

PyMOL Charge-smoothed potential

APBS-generated potential

关于PyMOL内部“蛋白质接触电势”的经验法则(rule of thumb)是,如果关心它的工作原理,那么应该使用真正的泊松-玻耳兹曼静电解算器(Possion-Boltzman electrostatics solver),如APBS。

不管怎样,PyMOL生成定性的静电展示(a qualitative electrostatic representation)(软件操作步骤:via action popup-->generate-->vacuum electrostatics-->...)所做的工作相当于使用准库仑形卷积(quasi-Coulombic-shaped convolution)函数对(每个)小空间区域上的电荷进行平均。亦可称为“电荷平滑”("charge smoothing")。
PyMOL使用“接触”("contact")这个术语涉及的事实是,如果忽略溶剂筛选(solvent screening),只考虑附近的原子,则默认着色所显示的电位近似于:蛋白质表面一个溶剂半径上的一个点电荷所能感受到的电位。当查看泊松-玻尔兹曼计算结果时,这种处理方法也很有意义(在APBS插件的“可视化”选项卡中选择“Color by potential on sol. acc. surf.”,以获得该效果),如下上图(下)。
静电可视化程序显示分子表面上的电势对我来说毫无意义,因为(1)我们采用了点电荷模型,这些点电荷模型仅被参数化,以近似计算位于原子中心的部分电荷之间的势能,以及(2)分子表面位于空间区域,由于低介电内部和高介电外部(溶剂区域)之间的离散不连续性,PB计算中的伪影和噪声最大。

以实例介绍蛋白结构相关软件的使用

1. 首先从Biomart(Ensemble)下载基因、转录本(及长度)、与蛋白ID的各种转换(很重要):

获取:Gene name、Transcript stable ID、Protein stable ID、Transcript length (including UTRs and CDS)、PDB ID和UniProtKB Gene Name ID。
2. 进入:SWISS-MODEL官网:https://swissmodel.expasy.org/
搜索基因名,并寻找对应物种:
 




Biomart给出的ID对应关系:



3. 在PyMOL中可视化



PyMOL>处输入代码,回车:

bg_color white


将α螺旋(h)改为红色:

color red , ss h


将β折叠(s)改为蓝色:

color blue , ss s


将无规则卷曲(小写L)和其他结构(+以及一个双引号)改为黄色:

color yellow , ss l+"





注意:上述1-3步中,第二步可直接在AlphaFold(https://alphafold.ebi.ac.uk/)中下载PDB文件。一般人类的常见蛋白在AlphaFold中都能获取全长!

接下来看一个经典的单一氨基酸取代后,导致疾病的案例:镰状细胞性贫血。该病是一种常染色体显性遗传血红蛋白病,因β-肽链第6位氨基酸谷氨酸被缬氨酸所代替,构成镰状血红蛋白,取代了正常血红蛋白。突变基因为HBB基因

该病临床表现为慢性溶血性贫血、易感染和再发性疼痛危象引起慢性局部缺血从而导致器官组织损害。主要通过输血、药物治疗等方法进行治疗。纯合子患者预后较差,杂合子患者预后相对较好。2018年5月11日,国家卫生健康委员会等5部门联合制定了《第一批罕见病目录》,镰刀型细胞贫血病被收录其中。(葛均波,徐永健,王辰.内科学(第九版):人民卫生出版社,2018)

该疾病更具体的介绍及其机制:


MalaCards based summary : Sickle Cell Anemia, also known as hemoglobin sc disease, is related to acute chest syndrome and deficiency anemia, and has symptoms including angina pectoris, abdominal pain and chest pain. An important gene associated with Sickle Cell Anemia is HBB (Hemoglobin Subunit Beta), and among its related pathways/superpathways are Glucose / Energy Metabolism and Interleukin-4 and 13 signaling. The drugs Amodiaquine and Proguanil have been mentioned in the context of this disorder. Affiliated tissues include Blood, bone marrow and endothelial, and related phenotypes are chronic hemolytic anemia and recurrent infections.
KEGG : 36 Sickle cell anaemia (SCA) is a recessive genetic disease caused by a single-point mutation in the beta globin gene in codon 6 (Glu6Val) that specifies one of the chains of haemoglobin. The disease is characterized by a chronic haemolytic anaemia with the sickle cells which show abnormal morphology due to the damage of the membrane skeletons and agglutinate under deoxygenated conditions.
Sickle Cell Anemia disease: Malacards - Research Articles, Drugs, Genes, Clinical Trials

球蛋白(Globulin protein,正常的血红蛋白)允许转运氧气。而在镰状细胞贫血中,只有1个氨基酸被取代,即第6位氨基酸Glu转位为Val(Glu6Val),血红蛋白分子不能以同样的方式形成,结晶成镰状细胞,如下图:



HBB野生(PDB文件来自AlphaFold):

HBB突变(直接使用PyMOL(v 2.2.3)手动突变):

使用SWISS-MODEL从头预测HBB野生蛋白的三维结构:

使用SWISS-MODEL从头预测HBB突变蛋白的三维结构:

撰写:宋红卫   校对:叶明皓

关于人类遗传学知识、文献和数据分析技术,可关注和星标“聊生信、生信宝典”