ixxmu / mp_duty

抓取网络文章到github issues保存
https://archives.duty-machine.now.sh/
112 stars 30 forks source link

AlphaFold3—转录因子预测——(结果解读) #4957

Closed ixxmu closed 4 months ago

ixxmu commented 4 months ago

https://mp.weixin.qq.com/s/hSI5-TMsZVcvpnaVeKAzDg

ixxmu commented 4 months ago

AlphaFold3—转录因子预测——(结果解读) by 生信小博士

写在前面

上次我们分享了AlphaFold3在转录因子预测方面的应用,有很多读者留言、评论,也有人指出我犯了错误,并提出了建议,在此一并感谢各位读者。今天抽时间来做一次结果初步解读。

在解读之前,就读者在评论区留下的问题,我这里做几点总结

  • 1.真实世界中,Brd4是否可以与DNA直接结合,这种问题我回答不了

  • 2. 根据下图预测的结果来看,Brd4甚至可以与DNA单链结合。

  • 3.但是我们通常认为转录因子是与DNA双链结合的,是不是应该使用双链DNA的序列来看其是否与BrD4存在结合呢

  • 4. 转录因子发挥作用通常还存在其他辅因子,我们在做分子或作时,是否要考虑其他因素呢? 应该考虑哪些因素呢?

总之,AlphaFold3给我们提供了一把独特的“探测器”,让我们能够窥探转录因子与DNA的神秘互动,但最终是否成真,还得看我们的实验验证!



结果解读

对于免费版本的AlphaFold3,我把结果分为三部分,分别对应上面的1,2,3

1,我们可以直接下载本次的所有结果,下载得到内容如下

理论上,我们可以使用这些文件来进行本地可视化,查找有显著性意义的互作序列

但是,需要我们使用一款软件ChimeraX,下图是使用教程,挺全面的


其中的request文件中,记录了我们的作业内容:主要包含,作业名称,随机数和目的序列


2,我们可以粗浅的理解为置信度,颜色越深表示预测的置信度越高

原文是这面解释的

PAE (predicted aligned error): estimate of the error in the relative position and orientation between two tokens in the predicted structure. Higher values indicate higher predicted error and therefore lower confidence. For proteins and nucleic acids, PAE score is essentially the same as AlphaFold2, where the error is measured relative to frames constructed from the protein backbone. For small molecules and post-translational modifications, a frame is constructed for each atom from its closest neighbors from a reference conformer.

PAE(预测对齐误差):估计预测结构中两个标记之间相对位置和方向的误差。较高的值表示预测误差较大,因此置信度较低。对于蛋白质和核酸,PAE 分数与 AlphaFold2 基本相同,其中误差相对于从蛋白质主链构建的框架进行测量。对于小分子和翻译后修饰,则为每个原子从其参考构象的最近邻构建框架。


3.就是我们的互作图形部分,不同的颜色代表不同的置信度。如果分数太低,就说明预测结果的置信度很低,要谨慎使用。

官方是这么解释的

  • pLDDT: a per-atom confidence estimate on a 0-100 scale where a higher value indicates higher confidence. pLDDT aims to predict a modified LDDT score that only considers distances to polymers. For proteins this is similar to the lDDT-Cα metric but with more granularity as it can vary per atom not just per residue. For ligand atoms the modified LDDT considers the errors only between the ligand atom and polymers not other ligand atoms, and for DNA/RNA a wider radius of 30A is used for the modified LDDT instead of 15A. The pLDDT is shown as color outputs in the image of the structure, using the same value to color mapping as in AFDB.

  • pTM and ipTM scores: the predicted template modeling (pTM) score and the interface predicted template modeling (ipTM) score are both derived from a measure called the template modeling (TM) score. This measures the accuracy of the entire structure (Zhang and Skolnick, 2004Xu and Zhang, 2010). A pTM score above 0.5 means the overall predicted fold for the complex might be similar to the true structure. ipTM measures the accuracy of the predicted relative positions of the subunits within the complex. Values higher than 0.8 represent confident high-quality predictions, while values below 0.6 suggest likely a failed prediction. ipTM values between 0.6 and 0.8 are a gray zone where predictions could be correct or incorrect. TM score is very strict for small structures or short chains, so pTM assigns values less than 0.05 when fewer than 20 tokens are involved; for these cases PAE or pLDDT may be more indicative of prediction quality.

pLDDT:基于 0-100 量表的每个原子置信度估计,其中较高的值表示置信度较高。pLDDT 旨在预测一种仅考虑到聚合物距离的修改 LDDT 分数。对于蛋白质,这类似于 lDDT-Cα 指标,但具有更高的粒度,因为它可以随每个原子变化而不仅仅是每个残基。对于配体原子,修改后的 LDDT 仅考虑配体原子与聚合物之间的误差,而不是其他配体原子之间的误差;对于 DNA/RNA,修改后的 LDDT 使用更宽的 30Å 半径,而不是 15Å。pLDDT 以结构图像中的颜色输出显示,使用与 AFDB 中相同的数值到颜色映射。

pTM 和 ipTM 分数:预测模板建模(pTM)分数和界面预测模板建模(ipTM)分数均来自称为模板建模(TM)分数的度量。这衡量整个结构的准确性(Zhang and Skolnick, 2004;Xu and Zhang, 2010)。pTM 分数高于 0.5 表示整体预测的复合物折叠可能与真实结构相似。ipTM 衡量复合物内亚基相对位置的预测准确性。高于 0.8 的值表示置信度高的高质量预测,而低于 0.6 的值则表明可能是失败的预测。ipTM 分数在 0.6 到 0.8 之间为灰色区域,预测可能正确或不正确。对于小结构或短链,TM 分数非常严格,因此当涉及少于 20 个标记时,pTM 分数赋值低于 0.05;在这些情况下,PAE 或 pLDDT 可能更能指示预测质量。



Alphafold3 使用条款

根据Alphafold3的使用条款,只要不是用于商业目的,Alphafold3的预测结果用于发表科学论文是不受限制的

使用限制

AlphaFold 服务器属于我们。我们免费提供输出,仅供非商业用途,并且需遵守以下使用限制。您不得使用或允许他人使用输出或衍生物:

  1. 代表商业组织或与任何商业活动相关,包括代表商业组织进行研究,或以任何方式分享或使用输出或衍生物,使商业组织获得输出或衍生物的任何权利,除了通过科学出版物、开源发布或支持新闻的方式间接实现

  2. 与任何自动化系统相关,该系统预测蛋白质与配体或肽的结合或相互作用,包括但不限于 Glide 或 AutoDock。

  3. 用于训练类似于 Google DeepMind 的 AlphaFold 技术的机器学习模型或相关技术。

  4. 未提供显著通知的情况下发布或分发输出或衍生物,说明这些条款和您对输出的任何修改。

    1. 如果您从输出或衍生物中删除这些条款或任何通知,您必须确保进一步分发时附有一个“法律约束使用条款”文本文件,其中包含以下通知:“此信息受 AlphaFold 服务器输出使用条款的约束,详情请见 alphafoldserver.com/output-terms”。

    2. 如果您为输出或衍生物的使用、复制或分发提供附加或不同的条款和条件,您必须包含这些条款中的“使用限制”部分作为可执行条款,并明确通知后续用户输出和衍生物受这些使用限制的约束。

  5. 用于误导、虚假陈述或误导,包括:

    1. 虚假陈述您与 Google 的关系 - 包括使用 Google 的商标、商号、标志或未经 Google 许可而暗示得到 Google 的认可 - 这些条款不授予此类许可;

    2. 虚假陈述输出或衍生物的来源;

    3. 传播在敏感领域(例如健康)特别是关于专业知识或能力的误导性声明;或

    4. 在影响物质或个人权利或福祉的领域(例如医疗)做出决策。

  6. 用于或促进危险、非法或恶意活动,包括促进或帮助销售,或提供合成或获取非法物质、商品或服务的指示。

输出和衍生物可能附带属于我们的辅助信息。您可以根据这些条款使用这些辅助信息。您同意您使用和分享输出或衍生物的权利受这些条款的约束。如果您违反这些条款,Google 保留要求您删除并停止使用或分享您所拥有或控制的输出或衍生物的权利。您同意立即遵守任何此类要求。

免责声明和责任限制

这些条款中的任何内容都不限制任何不可限制的权利或法律允许范围内的 Google 责任。

AlphaFold 服务器提供的结构预测具有不同的置信度等级,严格按照“原样”提供,不做任何形式的陈述或保证,包括但不限于适销性、特定用途适用性、所有权和非侵权的隐含保证。您负责使用 AlphaFold 服务器生成的信息的准确性、可靠性、可用性、有效性或正确使用,或因持续使用该信息而产生的任何影响。如果您依赖任何此类信息,风险由您自行承担。

AlphaFold 服务器、输出和衍生物仅用于理论建模。这些内容并非用于临床用途,也未经过验证或批准。您不应将这些用于临床目的或依赖它们提供医疗或其他专业建议。任何关于这些主题的内容仅供参考,并不能替代合格专业人士的建议。

在任何情况下,Google 都不对任何间接、特殊、附带、惩罚性、后果性或惩戒性损害,或任何种类的利润损失或任何责任,包括因其自身的过失而产生的责任超过 500 美元的情况负责。



写在最后

如果想详细了解如何提取互作的序列,以及每个部分的置信度,就需要读者学习一下ChimeraX软件的使用,链接在最后

参考:https://www.youtube.com/watch?v=TMcjEecFHaIhttps://www.cgl.ucsf.edu/chimerax/
https://www.cgl.ucsf.edu/chimerax/tutorials.html

如有不足之处,欢迎指正——生信小博士